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本 书 着 重 十 对 Linux 系统 最 新 版 本 《2.4.0) 内 核 源 代码 进行 情 最 描述 和 情景 分 析 。 

什么 是 情景 描述 ? 什么 是 情景 分 析 ? 

不 妨 以 英语 的 教学 为 例 。 大 家 部 知道 ， 有 -种 很 有 效 的 方法 是 通过 “情景 会 话 ” 学 习 英 语 。 例 如， 
去 剧院 问 路 要 说 些 什么 ， 去 图 书馆 借 书 要 说 些 人 秆 么 ， 去 餐馆 吃饭 碰 上 了 熟人 又 说 些 什么 ， 等 等 。 每 … 
个 这 样 的 “情景 ”都 趾 个 常见 或 常用 的 会 话 过 程 。 以 这 样 的 -- 些 情景 为 线索 ,， 洛 者 这 些 线索 讲解 “这 
是 被 动 语 态 ~“ 那 是 习惯 用 法 ” 就 容易 引起 学 习 人 的 兴趣 从 而 印象 深刻 ， 并 且 每 学 了 这 样 一 个 情景 就 
能 够 实际 运用 。 另 外 ， 由 于 来 自 现 实生 活 的 情景 在 语法 、 语 义 等 方面 都 不 是 单一 的 ， 在 学 习 - 一 个 情景 
的 时 候 通 常 都 会 涉及 该 语言 种 种 不 同 的 方面 ， 通 过 一 系列 精心 安排 的 情景 会 话 的 学 习 ， 就 能 对 英 尘 逐 
步 地 建立 起 比较 全 面 的 认识 。 事 实 上 ， 就 英 诸 的 学 习 和 而 言 ， 纯 粹 的 系统 化 学 习 方 法 几乎 是 不 坝 实 的 。 
事实 上 ， 很 少 有 人 通过 读 字典 来 学 单词 ， 遇 前 是 结合 课文 来 学 ， 每 篇 课文 实际 上 也 是 一 个 情 隶 。 当 然 ， 
系统 化 的 学 习 还 是 此 的 ， 学 了 情景 对 话 以 后 偿 要 再 系统 地 学 习 语 法 。 但 是 无 可 否认 的 是 ， 从 情 丸 对 话 
入 手 学 习 英 诸 比 从 诸 法 入 手 要 有 效 得 多 。 相 信 读 者 会 有 这 方面 的 体会 和 经 历 。 

SIERRA Linux 内 核 的 学 习 。 如 果 以 车 十 经 过 精心 安排 的 情景 为 线索 ， 例 如 ， 打 开 一 个 文件 的 
全 过 程 ， 执 行 一 个 可 执行 程序 的 全 过 程 ， 从 一 个 进程 发 送 一 个 报 文 到 另 一 个 进程 的 过 程 等 等 ， 结 合 
核 源 代码 未 个 加 以 讲 钥 ， 并 且 在 讲解 过 程 中 有 人 针对 性 地 介绍 所 涉及 的 数据 结构 和 算法 ， 读 者 就 能 得 到 
对 整个 内 核 的 生动 而 深刻 的 理解 。 本 书 的 宗旨 之 一 就 在 于 引导 读者 走 过 许 多 这 样 的 “情景 ”"”， 从 而 建 并 
起 对 Linux 内 核 的 全 面 的 认识 。 人 至 丁 情景 的 安排 ， 仍 然 按 照 操 作 系 统 的 原理 分 成 若干 章 ， 例 如 存储 管 
理 、 进 程 管 理 、 文 件 系统 等 等 。 在 每 一 前 中 ， 除 了 必要 的 叙述 以 外 ， 都 挑选 了 若干 重要 的 情景 ， 结 合 
源 代码 逐个 加 以 讲解 。 

本 节 所 用 的 源 代 码 ， 刚 开始 编写 初稿 时 取 自 当时 最 新 的 Linux 内 核 2.3.38 版 ， 后 来 屿 经 2.3.98 利 
2.4.0 测试 版 , 最 后 依据 2.4.0 目 式 版 重新 修改 定稿 。 读 者 可 以 在 相关 的 网 站 上 自行 下 载 该 版 内 核 的 全 部 
源 代码 。 可 以 肯定 ， 当 读者 看 到 本 书 时 ， 基 全 本 书 付 印 时 ， 最 新 的 版 本 已 不 青 是 2.4.0 T. BENERE 
样 我 们 总 得 要 锁定 个 版 本 ， 这 就 是 2.4.0. 

一 般 情况 下 ， 分 析 操 作 系统 源 代 公 的 专著 或 教材 习惯 上 都 是 这 样 安排 的 ， 以 主要 数据 结 移 的 定义 
为 核心 ， 以 数据 结构 之 问 的 联系 为 线索 ， 内 容 则 以 对 文件 、 模 块 和 函数 的 功能 描述 为 主 ， 辅 以 者 干 隔 
数 中 的 代 但 片断 作为 实例 ， 以 达到 介绍 、 分 析 各 种 特定 机 制 的 目的 。 这 种 思路 和 安排 基本 上 类 似 寺 先 
讲 语法 规则 后 举 一 些 例句 的 外 语 教学 方法 , 它 比 较 适合 于 内 要 求 对 内 核 和 ' 它 的 原理 有 粗略 了 解 的 读者 ， 
但 对 需要 深入 理解 内 核 或 实际 从 事 这 方面 工作 的 读者 加 未 必 合 适 。 其 实 ， 这 种 安排 对 于 初学 者 也 未 必 


契 最 好 的 。 不 错 ， 要 再 解 “个 操作 系统 的 内 企 机 制 及 其 实现 机 理 ， 当 然 震 要 了 解 计 要 数据 结构 的 给 成 ， 
解数 据 结构 之 问 的 联系 ， 了 解 整个 内 核 代 人 的 模块 划分 、 文 件 划分 和 功能 分 解 ， 了 解 主 要 函数 对 有 
关 数 据 结 移 操作 的 大 敏 逻 辑 流程 。 问 题 让 和 于， 怎样 才能 使 读者 和 学 生 达 到 这 些 要 求 。 根 据 我 们 多 年 来 
的 切身 体会 ， 我 们 决定 从 具体 、 鲜 活 的 源 代 代 入 手 作 情景 分 析 ， 在 分 析 过 程 中 逐步 引入 相关 的 数据 结 
移 和 互相 间 的 联系 ， 介 绍 具 体 函 数 的 逻辑 流程 及 其 物理 背景 作 全 代码 作 省 的 时 些 高 超 技 巧 ， 让 读 洽 和 
作者 一 起 完成 必要 的 抽象 过 程 ， 通 过 读者 的 思索 ， 最 后 达到 深入 而 全 面 的 埋 解 。 

对 十 从 事 系统 设计 或 实现 的 读者 ， 源 代 侣 的 济 读 和 理解 是 一 项 重 费 的 基本 功 。 写 小 说 的 人 大 多 足 
读 了 许多 名 兰 和 文学 评论 以 后 ， 而 不 是 读 了 “小 说 概论 ”以 后 才学 到 写作 技巧 ， 进 而 蕊 出 受 读 者 喜爱 
的 作曲 。 写 程序 的 人 又 何尝 不 是 如 此 。 本 书 的 日 的 之 一 就 是 为 读者 提供 一 些 类 似 才 文学 评论 的 材料 。 
妨 ， 方面 ， 源 代码 的 阅读 和 理解 也 是 必要 的 。 在 某 种 意义 上 ， 源 代码 本 身 婚 是 最 准确 的 说 明 书 也 是 最 
权威 的 教科 书 ， 因 为 山 它 所 构成 的 系统 切切 实 实在 运行 。 我 们 白 己 就 有 过 这 样 的 经 历 ， 学 了 一 些 原理 
FPR ALA). BAS URS AAV ARMA ES. FR PUD, TIES 
ZNAE. Linux 内 核 源 代码 还 为 计算 机 行业 的 芽 作 人 员 树 立 了 一 个 参照 物 。 我 们 在 工作 中 常常 看 
到 , 人 们 (包括 我 们 自己 ) 在 磁 到 问题 时 往往 会 先 筷 E: 这 人 在 Linux (以 前 是 Unix) "E EE SEE SONS? 
或 者 在 Linux 环境 中 能 省 实 现 ? HAS :下 有 关 的 源 代码 ， 便 有 了 主张 。 有 时 其 至 就 在 源 代码 中 找 几 
个 文件 加 以 裁 前 、 修 改 ， 问 题 很 快 就 解决 了 (但 须 遵 宁 GPL 中 的 有 关 规 定 )。 诚 然 ，Linux 内 核 源 代码 
的 阅读 和 理解 是 个 艰苦 的 过 程 ， 最 好 能 有 些 指 叶 ， 有 些 帮助 ， 而 这 正 起 我 们 写作 本 书 的 日 的 。 

希望 读者 在 每 读 完 一 章 后 能 做 山 个 小 结 。 一 个 是 关于 数据 结构 组 成 和 数据 结构 之 问 联系 的 小 结 ， 
男 一 个 是 关 十 执行 过 程 以 及 孙 数 调用 关系 的 小 结 。 读 者 为 了 完成 这 两 个 小 结 ， 可 能 不 得 不 岂 过 头 去 再 
读 一 授 其 至 几 吉 前 面 的 内 容 。 从 内 容 的 选 定 和 编排 的 角度 来 浇 ， 最 理想 的 当然 是 严格 遵循 “ 先 说 明 后 
引用 ”的 原则 ， 像 平面 儿 何 那样 建立 起 一 个 演绎 体系 。 可 是 ， 对 于 “个 实际 的 系统 ， 特 别 在 对 于 它 的 
源 代 码 ， 这 种 元 全 线性 的 叙述 和 认识 过 程 是 不 山 实 的 。 实 际 的 认识 过 程 是 蝶 旋 式 的 ， 这 也 决定 了 常常 
天 要 及 复读 几 过 才能 理解 。 所 以 ， 对 于 一 个 操作 系统 的 源 代 码 ， 读 到 后 面 冉 返回 前 面 ， 上 青 读 钊 后 面 义 
返 思 有明 耐 ， 这 几乎 是 必然 的 过 程 。 真 有 决心 深入 了 解 Linux 内 核 的 读者 让 该 有 这 个 电极 准备 。 我 们 相 
信 ， 读 者 在读 完全 书 以 后 ， 如 果 闭 日 细 想 ， 一 定 会 有 一 种 在 一 个 新 到 的 城市 小 由 向 嘻 防 同 走 街 串 磋 ， 
到 过 了 大 虽 的 重要 景点 ， 最 后 到 了 某 个 高 楼 之 顶 的 旋转 餐厅 鸟 牙 整个 碱 市 时 常会 有 的 下 种 心情 。 

上 于 篇 幅 的 刀 央 ， 企 书 分 上 下 两 骨 。 上 册 包 括 预备 知识 、 存 储 管 理 、 中 断 和 系统 调用 、 进 程 和 进 
程 调 度 、 文 件 系 统 以 及 传统 的 Unix 进程 问 通讯 ， 共 六 前 。 下 册 则 分 基于 socket AEFIA, Ex 
Jj. BASES SMP 系统 结构 以 及 系统 引导 和 初始 化 ， 共 四 章 。 上 下 两 册 不 可 分 割 ， 是 -- 个 有 机 的 束 体 。 

本 书 的 题材 决定 了 读者 主要 是 中 、 帘 级 的 计算 机 专业 人 员 ， 以 及 大 学 有 关 专 业 的 高 年 级 学 生 和 钙 
究 和 后。 但 是， 我 们 在 写作 中 也 尽量 照看 到 了 非 计算 机 专业 的 学 竺 和 初学 者 《因此 程度 高 的 读者 有 了 时候 
也 许 会 觉得 书 中 有 些 讲解 过 于 曙 同 )。 - 般 而 言 ， 读 者 只 芝 有 一 些 操作 系统 和 计算 机 系统 结构 方太 的 基 
TAT, ADE CHE. MURA. 
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器 像 软 件 免 个 了 有 错 一 样 ， 对 软件 的 理解 和 洽 释 也 一 定 会 有 错误 ， 人 们 能 做 的 只 是 尽量 减少 错误 。 
我 们 可 以 负责 地 说 ， 本 书 付 吨 前 在 文字 中 已 经 没有 我 们 知道 而 没有 改正 的 错误 ， 吏 没有 收 意 误导 读者 
的 内 容 。 但 是 ， 我 们 深 知 错误 一 定 是 有 的 ， 我 们 欢迎 讨论 ， 欢 迎 批评 。 

20 年 晶 ， 本 书 的 两 位 作者 从 不 同 单位 调 入 浙江 大 学 计算 机 系 ， 共 种 期 间 曾 共同 承担 过 古 干 计算 机 
应 川 项 日 的 开发 、 研 究 。 后 来 第 -作者 太 了 美国 ， 日 年 在 美 定居 ， 继 续 从 事 计算 机 专业 的 十 作 ; 第 . 
作者 已 从 学 校 退休 ， 日 前 受聘 在 杭州 己 生 电子 股份 有 限 公司 任职 。 汕 于 难 态 的 友情 和 其 他 Eea LLA 
舍 的 情结 (包括 对 Unix 和 Linux 的 共同 爱好 ), 两 年 前 通过 越 洋 电话 商定 要 合作 写 几 本 有 六 Linux HB, 
此 记 在 读者 手 上 的 就 是 其 中 的 第 一 本 ， 其 余 的 就 此 看 条 件 是 合 允 许 了 。 

从 成 书 介 出 版 ， 曾 得 到 了 陈 大 中 、 曾 抗 后 、 金 通 滴 . fie LOCOS NURARUTT Ze E A AH PA SUO 
和 文 拉 ， 作 者 感谢 他 们 。 特 别 要 提 到 的 是 ， 恩 师 何 志 钓 教授 在 过 去 和 坝 在 融 给 了 作者 许多 的 关心 和 天 
助 ， 令 作者 终生 难点 ， 本 书 的 出 版 在 某 种 意义 上 也 是 对 扰 师 的 一 次 汇报 ， 同 时 表示 由 衷 的 感谢 。 

作者 还 要 感谢 恒生 电子 股份 有 限 公 司 黄 大 成 总 裁 、 彭 政 纲 昔 事 长 以 及 其 他 领导 人 对 作者 ， 特 别 是 
第 二 作者 开展 Linux 饰 究 的 支持 。 他 们 为 本 书 第 二 作者 提供 了 很 好 的 工作 条 件 , 使 其 在 工作 之 余 继 Unix 
之 后 还 能 再 从 事 Linux 技术 的 饶 究 。 作 为 全 国 著名 软件 企业 的 决策 者 ,他们 对 软件 核心 技术 的 敏锐 眼 
光 以 及 采用 最 新 技术 为 我 国 金融 证 券 行业 开 发 全 新 的 大 型 应 几 软 件 的 战略 决策 ， 令 人 钦佩 。 感 谢 他 们 ， 
祝愿 他 们 上 又 得 更 人 的 成 功 。 

最 后 ， 还 要 感谢 谢 敏 、 上 红 女 、 章 西 、 李 清 葵 几 位 小 姐 ， 她 们 在 承担 公司 繁 里 上 作 的 同时 利用 业 
余 时 间 为 本 书 文稿 的 求 入 和 整 埋 付出 了 估量 的 芋 勒 邦 动 。 

本 书 的 出 版 ， 像 任何 其 他 技术 专著 样 ， 除 了 错误 之 外 总 还 会 有 许多 个 尽 人 总 的 地 方 ， 次 迎 国内 
外 的 专家 和 本 书 读者 给 我 们 指出 ， 以 便 改 进 。 


毛 德 操 (Decao Mao) 
19 Orchard Hill Road, 
Newtown, CT 06470 
USA 
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杭州 恒 牛 电子 股份 用 限 公司 
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1.1 Linux 内 核 简 介 


在 计算 机 技术 的 发 展 史 上 ，bUnix 操作 系统 的 出 规 是 一 个 重要 的 里 程 碑 。 时 期 的 Unix 59 f 2t Bk XE E 
及 一 些 西 方 国家 的 大 学 和 科研 机 构 使 用 ， 并 且 提 供 源 代 码 。 这 一 方面 为 高 校 和 科研 机 构 普 及 使 用 计算 
机 提供 了 条 件 ， 另 一 方志 ， 也 是 更 重要 的 ， 为 计算 机 软件 的 核心 技术 “操作 系统 ”的 教学 和 实验 提供 
了 条 件 。 特 别 足 Unix 内 核 第 6 版 的 源 代 码 ， 在 相当 长 的 一 段 时 期 内 是 大 学 计算 机 系 高 年 级 学 牛 和 研究 
生 使 用 的 教材 ， 甚 全 可 以 说 ， 美 国 当 时 整整 一 代 的 计算 机 专业 人 员 才 是 读 着 Unix 的 源 代码 成 长 的 。 反 
过 来 ， 这 也 促进 了 Unix 的 普及 和 发 展 ， 并 且 在 当时 形成 了 一 个 Unix 产业 。 事 实 上， 回顾 硅谷 的 替 成 
WARE, UWA S Unix 起 着 重要 的 作用 。Unix 两 大 主流 之 一 的 BSD READIN AIA A aD REF 
发 的 。 后 来 ，Unix 成 了 商品 ， 其 源 代 码 也 受到 了 版 权 的 保护 ， 再 说 也 日 益 复杂 和 庞大 了 ， 而 第 6 版 则 
又 慢 慢 显得 陈旧 了 ， 便 逐渐 不 再 用 Unix 内 核 的 源 代码 作为 教材 了 《但 是 妆 到 现在 还 有 在 用 的 )。 

在 这 种 情况 下 ， 出 于 教学 的 常 要， 入 兰 的 著名 教授 Andrew S. Tanenbaum 编写 了 一 个 小 型 的 “类 
Unix” HERA Minix， 在 PC 机 上 上 运行， 其 源 代 但 在 20 其 纪 80 年 代 后 期 和 90 千代 前 期 曾 被 广泛 采 
AQ. 但是，Minix 虽说 是 “类 Unix”, RA Unix 相当 远 。 首 先 ，Minix 是 个 所 谓 “ 微 内 核 ”， 与 Unix 
内 核 属 十 不 同 的 设计 , 功能 上 更 是 不 可 同日 而 语 。 再 说 Unix 也 不 仅仅 是 内 核 , 还 包括 了 其 “外 元 ”Shell 
和 许 冤 工 具 性 的 “实用 程序 ”， 如 果 内 核 提 供 的 文 持 不 完整 ， 就 不 能 与 这 些 成 分 结合 起 来 形成 Unix. 环 
境 。 这 样 ，Minix 虽然 不 失 为 - :个 不 错 的 教学 工具 ， 却 缺乏 实 几 价值 。 看 到 Minix 的 这 个 缺点 ， 当 时 的 

个 芬 世 学 生 Linus Torvalds 就 靖 生 了 一 个 念头 ， 即 组 织 一 些 人 ， 以 Minix 为 起 点 ， 此 本 上 按照 Unix 
的 设计 ， 并 用 博 采 各 种 版 本 之 长 ， 在 PC 机 上 实现 ， 开 发 出 一 个 真正 可 以 实用 的 Unix 内 核 。 这 样 ， 公 
众 就 屿 有 免费 的 〈 现 代 ) Unix 系统 ， 义 有 系统 的 源 代 侣 ， 且 不 存在 版 权 问题 。 可 是 ，Tanenbaum 教授 
的 日 光 却 完全 用 在 教学 上 ， 因 此 并 不 认为 这 是 一 个 好 士 意 ， 没 有 采纳 这 个 建议 。 

Fore “PAE eA”, MENSA, BAA aL, Linus Torvalds ZEE Os) 
了 起 来 。 由 于 所 实现 的 基本 上 是 Unix, Linus Torvalds RHE ERA Linux. ABI E HX ld E REAREN TE 
这 么 普及 ， 代 是 在 大 学 和 公司 中 已经 用 得 很 多 了 。Linus Torvalds MAEA S Linux 内 核 的 第 一 个 版 
本 以 后 就 把 它 放 在 了 互联 网上 ， 一 来 是 把 自己 蕊 的 代 但 公 诸 才 众 ， 二 来 是 邀请 有 兴趣 的 人 也 来 参与 。 
他 的 这 种 做 法 很 快 便 引 起 了 热 纪 的 反应 ， 并 旦 与 天 国 “ 自 由 软件 基金 会 ”FSF 的 主张 下 好 不 谋 而 合 。 

ds 


Linux 内 核 源 代码 情景 分 析 (上 册 》 


当时 FSF 己 经 有 计划 要 开发 :个 类 Unix 《但 义 不 是 Unix， 所 以 称 为 GNU， 这 是“Gnu is Not Unix” I 
缩写 ) 的 操作 系统 和 应 用 环境 ， 作 Linux 的 出 现 正 是 适 得 其 时 ， 适 得 其 所 。 于 是 ， 由 Linus Torvalds + 
持 的 Linux 内 核 的 开发 、 改 进 与 维护 ， 就 成 了 FSF 的 主要 项 月 之 一 。 同 时 ，FSF 的 其 他 项 目 ， 如 GNU 
f) C 编译 gcc、 程 序 调试 工具 gdb， 还 有 各 种 Shell 利 实 用 程序 ， 乃 至 Web 服务 器 Apatche、 浏 览 器 
Mozilla( 实 际 上 就 是 Netscape) 等 等 , 则 正好 与 之 本 套 成 龙 。 人 们 普 明 认为 拥 由 软件 的 开发 定 软件 锁 域 中 
的 一 个 奇迹 。 这 么 多 志愿 者 参与 ， 只 是 通过 互联 网 维持 松散 的 组 织 ， 上 夺 然 能 有 条 不 率 地 互相 配合 ， 开 
发 出 高 质量 的 而 其 又 是 难度 较 大 的 系统 软件 ， 实 在 令 人 赞 疏 。 

那么 , Linux ‘EA aT Minix 的 区 别 何 在 呢 ? 简单 地 说 ， Minix 足 个 “ 微 内 核 ” 而 Linux 万 个 “ 宏 
内 核 ” Minix 是 个 类 Unix 的 教学 用 模型 ， 而 Linux SEAR LAE Unix, ty Ade Unix 的 延续 和 发 展 ， 其 
至 是 各 种 Unix 版 本 与 变种 的 集大成 者 。 

大 家 知道 ， 传 统 意义 下 的 操作 系统 ， 其 内 核 应 共 备 多 个 方面 的 功能 或 成 分 ， 虹 包 含 用 十 管 于 属 十 
应 用 层 的 “进程 ”的 成 分 ， 如 进程 管理 ， 也 包含 为 这 些 进 种 提供 各 种 服务 的 成 分 ， 如 进程 半 通 佑 、 设 
备 驱动 和 文件 系统 等 等 。 内 核 中 提供 各 种 服务 的 成 分 与 使 用 这 些 服务 的 进程 之 问 实 际 上 就 形成 一 种 典 
型 的 “ClienVyServer” 的 关系 。 其 实 ， 这 些 服务 提供 者 并 不 一 定 非得 部 留 企 内 核 中 不 可 ， 他 们 本 车 也 可 
以 被 设计 并 实现 某 些 “服务 进程 "”， 其 中 必须 要 留 在 内 核 中 的 成 分 其 实 只 有 进程 则 通信 。 如 果 把 这 些 服 
务 提供 者 从 内 核 转移 到 进程 的 层次 上 ， 那 么 内 核 本 身 的 结构 就 可 以 大 大 减 小 和 简化 。 山 各 个 服务 进程 ， 
既然 已 从 内 核 中 游离 出 来 ， 便 可 以 单独 地 设计 、 实 现 以 及 调试 ， 更 重要 的 是 可 以 按 实 际 的 需要 米 配置 
和 启动 。 基 于 这 样 的 想法 ， 各 种 “ 微 内 核 ”(Micro-Kerel 便 应 运 而 生 。 特 别 是 对 于 … 些 专用 的 系统 ， 
ERE EM BRA “KATO” RA (Embedded System)， 微 内 核 的 思想 就 很 有 吸引 力 。 守 其 原因 ， 主 
要 是 因为 通常 这 些 系 统 都 不 带 磁 盘 ， 整 个 系统 都 必须 放 企 EPROM 中 ， 常 常 受到 存储 空间 的 限制 ， 而 
所 需要 的 服务 义 比较 单一 和 简单 。 所 以 ， 几 乎 所 有 的 嵌入 式 系统 和 实时 系统 都 采用 微 内 核 ， 如 PSOS, 
VxWorks 等 。 当 然 ， 微 内 核 也 有 缺点 ， 将 这 些 服 务 的 提供 都 旗 在 进程 层次 上 ， 再 通过 进程 间 通 信 ( 通 
常 是 报 文 传递 ) 提供 服 务 ， 势 必 增 加 系统 的 运行 开销 ， 降 低 了 效率 。 

与 微 内 核 相 对 应 ， 传 统 的 内 核 结构 吴 称 为 “ 宏 内 核 ”(Macro-Kermnel)， 或 称 为 “一 体 化 内 核 
(Monolithic Kemel)。 通 用 式 的 系统 由 于 所 需 的 服务 面 广 而 量 大 ， 一 体 化 内 核 就 更 为 合适 。 作 为 一 种 
通用 式 系统 ，Linux 采用 一 体 化 内 核 臣 很 自然 的 事 。 

传统 的 Unix 内 核 是 “全 封闭 ”的 。 如 果 要 往 内 核 中 加 个 设备 《增加 一 种 服务 )， 早 期 一 般 的 做 
法 是 编 当 这 个 设备 的 驱动 程序 ， 并 变动 内 核 源 程序 中 的 其 些 数据 结构 (设备 表 ), 再 重新 编译 整个 内 核 ， 
并 重新 引导 整个 系统 。 这 样 做 当然 也 有 好 处 ， 如 系统 的 安全 性 更 能 得 到 保 让 ,但 其 缺点 也 是 很 明显 的 ， 
那 就 是 太 僵化 了 。 人 在 这 样 的 情况 下 ， 当 某 一 个 公司 升 发 出 一 种 新 的 外 部 设备 时 《比方 说 ， 一 台 彩 色 扫 
描 仪 ;)， 它 就 不 可 能 随同 这 新 的 设备 提供 一 片 软盘 或 光 描 给 用 户 ， 使 得 用 户 只 要 运行 一 下 “setup” 就 可 
以 把 这 设备 安装 上 了 ( 像 对 Dos/Windows 那样 )。 有 能 力 修改 Unix 内 核 的 设备 表 ， 并 重新 编译 内 核 的 用 
户 毕 竟 不 多 。 

在 Linux 里 ， 这 个 问题 就 解决 得 比较 好 。Linux 既 允 许 把 疫 备 驱动 程序 在 编译 时 静态 地 连接 在 内 核 
中 ， -如 传统 的 驱动 程序 邦 样 ， 也 允许 动态 地 华 运 行 时 安装 ， 称 为 “模块 ”还 人 允许 在 运行 状态 下 当 而 
要 用 到 某 - -模块 时 由 系统 自动 安装 。 这 样 的 模块 仍然 在 内 核 中 和 运行， 出 不 是 像 在 微 内 核 中 那样 作为 单 
独 的 进程 运行 ， 所 以 其 运行 效率 还 是 得 到 保证 。 模 块 ， 也 就 是 动态 安装 的 设备 驱动 程序 的 实现 ( 详 见 充 
备 虚 动 程序 一 章 )， 是 很 大 的 改进 。 它 使 Linux 设备 坚 动 程序 的 设计 、 实 现 、 调 试 以 及 发 布 都 人 人 地 简 
化 ， 其 至 可 以 说 是 发 生 了 根本 性 的 变化 。 

Linux 最 初 是 在 Intel 80386“ 平 台 ” 上 实现 的 ， 但 是 己 经 被 移植 到 各 种 主要 的 CPU 系列 上 ， 包 托 
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Alpha, M68K. MIPS. SPARC, Power PC 5&5& (Pentium, Pentium [| 等 等 均 属 于 i386 系列 )。 可 以 说 
Linux 内 核 是 现今 覆盖 所 最 广 的 一 体 化 内 核 。 同 时 ， 人 在 同 一 个 系 记 的 CPU E, Linux 内 核 还 支持 不 同 的 
系统 结构 ， 它 既 支持 常规 的 单 CPU 结构 ， 也 支持 多 CPU 结构 。 不 过 ， 本 书 将 专注 于 1386 CPU, JA 
以 单 CPU 结构 为 主 ， 但 是 最 后 有 一 章 专 门 讨 沦 多 CPU 结构 。 

在 安装 好 的 Linux 系统 中 ,内核 的 源 代 公 位 十 /usr/src/linux。 如 果 是 从 GNU 网 站 下 载 的 Linux 内 核 
的 tar 文件 ， 则 展开 以 后 在 一 个 叫 linux 的 子 日 录 中 。 以 后 本 书 中 谈 到 源 文件 的 路 径 时 ， 就 总 是 从 linux 
这 个 节点 开始 。Linux 源 代码 的 组 成 ， 大 体 如 下 所 示 。 





COPYING "x PSF 公共 许可 让 制度 GPL 的 具体 说 明 
README Linux 内 核 安装 和 使 用 的 简要 说 明 
Makefile EH Linux 内 核 可 执行 代码 的 make 文件 
Documentation AK Linux 内 核 的 文档 
—— arch arch 是 architecture 一 词 的 缩写 ， 内 核 中 与 上 基体 CPU 和 系统 结构 机 


关 的 代码 分 别 放 在 下 一 层 的 子 昌 录 中 ， 而 相关 的 .文件 虽 分 别 放 人 在 
inciude/asm 目录 之 下 
Alpha 一 一 原 DEC 开发 的 64 位 CPU 


i386 -- — 包括 X86 系列 中 自 80386 以 后 的 所 有 32 位 CPU ， 人 也 括 
80486, Petium Pentium 工 ， 等 等 ， 也 包括 AMD K6 4H 


容 系 列 
m68k—— W Motorola J KAS 68000 系列 
mips 一 一 RISC CPU 芯片 


spare —— RISC CPU BAH, ERAT Sun 工作 站 等 机 型 中 
$390 一 一 IBM 牛 产 的 一 种 大 型 计算 机 
ia64 一 一 Intel 的 IA-64 结构 64 位 CPU 
HA: 在 每 个 CPU 的 子 目录 中 ， 又 进一步 分 解 为 boot，mm，kernel 等 子 目录 ， 
分 别 包 人 钨 与 系统 引导 、 内 存 管理 系统 调用 的 进入 和 返回 、 中 断 处 理 以 
及 其 他 内 核 中 依赖 于 CPU 和 系统 结构 的 底层 代码 。 这 些 代 码 有 些 是 汇 
编 代码 ， 但 主要 还 是 c 代码 


linux 


drivers 设备 驱动 程序 ， 包 括 各 种 页 设备 和 字符 设备 的 驱动 程序 

fs 文件 系统 ， 每 个 子 日 录 分 别 对 应 :个 特定 的 文件 系统 ， 还 有 一 些 共 
同 的 源 程 序 则 用 十 “虚拟 文件 系统 ” vis 

include 包含 了 所 有 的 .ha Xe March SH ORE, Æ include 中 也 是 为 各 种 CPU 
者 乡 设 一 个 子 目录 ， 而 通用 的 了 日 录 asm 则 根据 系统 的 配置 而 “符号 连 
HU BIR CPU 的 专用 了 目录 ， 如 asm i386. asm m68k 等 。 除 此 之 外 ， 
还 有 通用 的 子 日 录 linux net 等 


init Linux 内 核 的 mainf ) 太 其 初始 化 过 程 ， 包括: main.c, version.c 等 文 

ipc Linux PAZ BSE REIR TS, 4458: util.c, sem.c, shm.c, msg.c Se x E 

kernel HEFE BERUUARE, GFR: sched.c. fork.c, exit.c, signal.c, sys.c, time.c, 
resource.c, dma.c, softirg.c, itimer.c 等 文件 

lib 通用 的 工 上 其 性 子 程序 ， 如 对 出 错 信息 的 处 理 等 等 

mm AoE, BR EP A, 人 包括: swap.c, swapfile.c, page_io.c, page_alloc.c, 
Swap_State.c, vmscan.c. kmalloc.c, vmalloc.c, memory.c, mmap.c 等 文件 

net 包含 了 符 种 水 辣 疯 卡 和 网 络 规程 的 驱动 程序 


scripts 用 于 系统 配置 的 命令 文件 


Linux MZ JC ad TE RAPIT C AID 

值得 一 提 的 是 ，Linux WYSE K, ESOS 8 TARR Ki RATA. c 和 .h 
文件 都 会 用 到 ， 而 是 在 编译 (包括 连接 ) 时 根据 系统 的 上 昵 置 有 选择 地 使 用 。 例 如 ， 虽 然 源 代码 中 包含 了 用 
来 支持 各 种 不 同 CPU 的 代码 ， 但 编 详 以 后 每 一 个 具体 的 内 核 都 只 是 针对 一 种 特定 CPU 的 。 再 如 ， 人 在 
nt 子 目 录 下 包含 了 各 种 网 卡 的 驱动 程序 ， 但 实际 上 通常 内 会 用 到 - -种 网 卡 ， 而且 各 种 网 卡 的 驱动 程序 
实际 上 大 同 小 异 。 

在 结束 本 节 之 前 ， 还 要 介绍 FAR Linux 内 核 版 本 的 一 些 规定 。 

通常 ， 在 说 到 Linux 时 ， 是 指 它 的 内 核 加 上 运行 在 内 核 之 上 的 各 种 管理 程序 和 应 用 程序 。 严 属地 
说 ， 内 核 只 是 操作 系统 的 一 部 分 ， 即 其 核心 部 分 。 但是， 人 人 和 们 往往 把 Linux 的 内 核 号 称 为 Linux， 所 以 
在 讲 到 Linux 时 有 了 时 候 想 指 整 个 操作 系统 ， 有 了 时候 则 是 指 其 内 核 ， 要 根据 上 下 文 加 以 区 分 。 在 本 书 中 ， 
如 无 特别 说 明 ， 则 Linux 通常 是 指 其 内 核 。 

Linux 内 核 的 版 本 在 发 行 上 有 自己 的 规则 可 以 从 其 版 本 号 加 以 识别 。 版 本 守 的 格式 为 “x.yy.zz”。 
其 中 x 介 于 0 到 9 之 间 ， 而 yy、zz 则 介 于 0 到 99 之 间 。 通 常数 学 愈 馈 便 说 明 版 本 愈 新 。 一 些 版 本 与 
后 面 有 时 会 见 到 pNN 的 字样 ，NN 是 介 于 0 到 20 之 间 的 数学 。 它 代表 对 其 一 版 的 内 核 “ 打 补丁 ”或 修 
订 的 次 数 。 如 0.99p15， 代 表 这 是 对 版 本 0.99 的 内 核 的 第 15 次 修订 。 

由 十 Linux 源 代码 的 开放 性 ， 公 众 随时 都 可 以 从 网 上 下 载 最 新 的 版 本 ， 包 括 还 在 开发 中 、 尚 未 稳 
定 、 因 而 还 不 能 发 行 的 版 本 ， 因 此 ， 需 要 有 一 套 编 号 的 方案 ， 使 用 户 看 到 个 具体 的 版 本 号 就 可 以 知 
道 是 属 十 “发 行 版 ”还 是 “开发 版 "， 所 以 Linux 内 核 的 版 本 编号 起 有 规则 的 。 在 版 本 号 x.yy.zz t't, x 
的 不 同 号 码 标志 着 内 核 在 设计 上 或 实现 上 的 重大 改变 ，yy “方面 表示 版 本 的 变迁 ， 一 方面 标志 大 版 本 
的 种 类 ， 即 “发 行 版 ”或 “并 发 版 和 OR yy 为 偶数 便 表 示 是 一 个 相对 稳定 、 已 经 发 行 的 版 本 ;大 为 
奇数 则 表示 还 在 开发 中 ， 日 前 还 不 太 稳 定 、 或 者 在 运行 中 可 能 出 现 比 较 大 的 问题 的 版 本 。 开 发 中 的 版 
本 一 旦 通过 测试 以 及 试 运行 ， 证 明 已 经 稳定 下 来 ， 就 可 能 会 发 布 一 个 yy 的 值 为 偶数 的 发 行 版 。 之 后 ， 
开发 者 们 又 将 创建 下 - :个 新 的 开发 版 本 。 但 是 有 时 候 也 会 在 历经 了 凡 个 开发 版 以 后 才 发 布 一 个 发 行 版 。 
B+ zz， 则 代 赤 着 在 内 核 增 加 的 内 容 不 是 很 多 、 改 动 不 是 很 大 时 的 变迁 ， 只 能 算是 同一 个 成 本 。 例 如 ， 
版 本 由 2.0.34 升级 到 2.0.35 只 意味 着 版 本 2.0.34 中 的 些小 缺陷 被 修复 , 或 者 代 僻 有 了 一 些小 的 改变 。 

“发 行 版 ”和 “开发 版 ”的 zz 是 独立 编写 的 ， 基 | 此 并 没有 固定 的 对 应 关系 。 例 如 ， 当 开发 版 2.3 的 版 
本 号 达到 2.3.99 时 ， 相 应 的 发 行 版 还 只 起 2.2.18。 

Linux 内 核 的 0.0.2 版 在 1991 年 首次 公开 发 行 ，2.2 版 在 1999 年 1 月 发 行 。Linux 内 核 的 改进 是 相 
当 频 繁 的 ， 几 乎 每 个 月 都 在 变 。 木 书 最 初 采 用 的 是 2.3.28 版 ， 最 后 成 书 付 印 时 则 以 正式 发 行 的 2.4.0 版 
为 依据 。 

Linux 的 内 核 野 本 上 只 有 一 种 米 源 ， 那 就 十 趾 Linus 主持 开发 和 维护 的 内 核 版 本 。 但 是 有 很 多 公司 
ERIT Linux 操作 系统 不 同 的 发 行 版 (distribution), Zl Red Hat, Caldera 等 等 。 虽 然 不 同 的 发 行 版 本 
中 所 采用 的 内 核 在 版 本 上 有 所 不 同 ， 但 其 来 源 是 本 一 敏 。 各 发 行 版 的 不 同 之 处 一 般 表 现 仁 安 装 程序 、 
安装 界面 、 软 件 包 的 多 少 、 软 件 包 的 安装 和 管理 方式 等 方面 ， 在 特 隶 情况 下 也 有 对 内 核 代码 稍 作 修 改 
的 《如 汉 化 )。 不 同 的 发 行 版 由 不 同 的 发 行商 提供 服务 。 不 同 的 发 行商 对 自己 所 发 行 版 本 的 定位 也 有 不 
同 ， 各 广 沿 所 能 所 供 的 售后 上 服务 、 技 术 文 持 也 各 不 相同 。 由 此 可 匈 ， 原 则 上 全 世界 只 有 一 个 Linux, BT 
谓 “ 某 某 Linux” 只 是 它 的 一 种 发 行 版 木 或 修订 版 本 。 另 外 ， 不 此 把 Linux WAS AT REEL US 
的 版 本 (如 “Red Hat 6.0” ie, PUn, Caldera 2.2 版 的 内 核 是 2.2.5 版。 

对 于 大 多 数 几 户 ， 由 发 行商 提供 的 这 些 发 行 版 起 着 十 分 重要 的 作用 。 让 用 户 上 自行 屿 署 和 生成 整个 
系统 是 柑 当 困难 的 ， 因 为 看 样 用 户 不 但 要 甘 届 下 载 内 核 源 程序 ， 自 己 编译 安装 ， 还 要 从 不 同 的 FTP 站 
点 下 载 各 种 自 出 软件 漆 加 公 自 己 的 系统 中 ， 还 要 为 系统 加 入 各 种 有 用 的 工具 ， 等 等 。 而 所 有 这 些 工 作 
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都 是 很 费时 费力 的 事情 。Linux 的 发 行商 正 是 看 到 了 这 一 点 ， 蔡 用 户 做 了 这 些 工作 , 在 内 核 之 上 集成 
了 大 量 的 应 用 软件 。 并 且 ， 为 了 安装 软件 ， 发 行 三 蘑 同 时 还 提供 了 用 于 软件 安装 的 工具 性 软件 ， 以 利 
于 用 户 安 狠 管理 。| 册 于 组 织 新 的 发 行 版 时 并 没有 … 个 统 -- 的 标准 ， 所 以 不 同 厂 闹 的 发 行 版 各 有 特点 也 
TOR ATE. 

Linux 内 核 的 终极 的 来 源 虽 然 只 有 一 个 , 但 是 可 以 为 其 改进 和 发 展 作 出 贡献 的 志愿 者 人 数 却 并 无 限 
制 。 同 时 ， 考 虑 到 一 些 特 殊 的 应 用 ， 一 些 开 发 商 或 机 构 往 往 对 内 核 加 以 修改 和 补充 ， 形 成 一 些 针 对 特 
殊 环境 或 要 求 的 变种 。 PU, ERRAR” RARER, AAMIR Embedded Linux; IA “i 
实时 ”要 求 的 系统 ， 有 人 就 开发 了 RT-Linux; 针对 于 持 式 计算 机 的 要 求 ， 有 您 开发 出 了 Baby Linux; 
等 等 。 当 然 ， 中 文 Linux 也 是 其 中 的 类。 每 当 有 新 的 Linux 内 核 版 本 发 布 时 ， 这 些 变 种 版 本 遂 常 也 
很 快 就 会 推出 相应 的 新 版 本 。 根 据 FSF 对 自由 软件 版 权 的 规定 ‘GPL)， 这 些 灾 种 版 本 对 内 核 的 修改 与 
补充 必须 公开 源 代 码 。 

许多 人 人 以为， 既然 Linux 是 免费 的 公开 软件 ， 那 就 无 所 谓 版 权 的 问题 了 。 其 实 不 然 。Linux 以 及 
Linux 内 核 源 代码 ， 是 有 版 权 保 护 的 ， 只 不 过 这 版 权 归 公众 (或 者 说 全 人 类 ) 所 有 ， 由 日 由 软件 基金 会 
FSF 管理 。FSF 为 所 有 的 GNU 软件 制定 了 个 公 几 许可 证 制度 ， 称 为 GPL (General Public License), 
也 叫 Copyleft， 这 是 与 通常 所 齐 的 版 权 即 Copyright 截然 不 同 的 制度 。Copyright 即 通常 意义 下 的 版 权 ， 
保护 作者 对 其 作品 及 其 衍 牛 品 的 独占 权 ， 而 Copyleft 则 允许 用 户 对 作品 进行 复制 、 修 改 ， 但 要 求 用 户 
i18 GPL 规定 的 一 些 义务 。 按 GPL 规定 ， 人 允许 任何 人 免费 地 使 用 GNU 软件 ， 并 日 可 以 用 GNU 软件 
的 源 代 码 重 构 吕 执行 代码 。 进 一 步 ，GPL 述 允 许 任何 人 免费 地 取得 GNU 软件 及 其 源 代 他， 并 用 再 加 
以 发 布 共 至 出 售 , 但 必须 要 符合 GPL ARR. MIM GZ, 这些 条 款 规 定 GNU 软件 以 及 在 GNU fX 
件 的 基础 下 加 以 修改 而 成 的 软件 ， 首 发 布 (或 转让 、 出 售 ) 时 必须 要 申明 该 软件 出 日 GNU (或 者 源 晶 
GNU)， 并 月 必须 要 保证 让 接收 者 能 够 共享 源 代码 ， 能 从 源 代 码 重 构 可 执行 代码 。 换 育 之 ， 如 果 - “个 软 
件 是 在 GNU 源 代码 的 基础 上 加 以 修改 ,扩充 而 来 的 , 那么 这 个 软件 的 源 代码 就 也 必须 对 使 川 者 公开 ( 注 
意 睛 品 的 出 售 与 游 代 但 的 公开 并 不 一 定 相 和 予 盾 )。 通 过 这 样 的 途径 ， 自 由 软件 的 阵容 就 会 像 滚 雪 款 “ 样 
越 滚 越 大 。 不 过 ， 如 果 - 一 个 软件 只 是 通过 某 个 GNU 软件 的 用 户 界面 CAPD 使 用 该 软件 ， 则 不 受 GPL 
条 款 的 约束 或 限制 。 总 之 ，GPL 的 主要 日 标 是 : 使 白 由 软件 及 黄 衍 生产 品 继续 保持 开放 状态 ,从 整体 上 
促进 软件 的 共享 和 重复 使 用 。 具 体 到 Linux 的 内 核 米 说 ， 如 果 你 对 内 核 源 代码 的 某 些 部 分 作 了 修改 ， 
或 者 在 你 的 程序 中 引用 了 Linux 内 核 中 的 某 些 段 洛 ， 你 就 必须 加 以 申明 并 且 会 开 你 的 源 代码 。 但 是 ， 
如 果 你 开发 了 一 个 用 户 程序 ， 只 十 通过 系统 调用 的 举 身 使 用 内 核 ， 则 你 操 己 拥有 完全 的 知识 产权 ， 不 
受 GPL 条 款 的 限制 。 

应 该 说 ，FSF 的 构思 是 很 巧妙 也 是 很 合理 的 ， 其 月 的 也 是 很 高 疯 的 。 

说 到 高 尚 ， 此 处 顺便 多 说 凡人 名。 美国 曾经 出 过 两 本 很 有 些 影响 的 书 ， 一 本 帅 Undocumented DOS, 
H ÆN Undocumented Windows, PAA [23548 46. DOS/Windows 系统 程序 员 的 必 备 工具 书 。 在 这 两 本 
书 中 ， 作 者 们 (Andrew Schulman, David Maxey 以 及 Matt Pietrek 等 ) —— AS f £e fb 41758055 71 
破译 和 总 结 出 来 的 DOSAWindows API C HTEEFF Wit FHA) 实际 上 提供 了 但 却 没有 列 入 Microsoft 技术 
RAS AAD Cf Ae) 的 功能 。 作 者 们 认为 ，Microsoft 没有 将 这 些 功能 收入 其 技术 资料 的 诛 内 
是 无 法 用 玻 忽 或 遗漏 加 以 解释 的 ， 山 具 能 是 故意 疝 用 户 隐 瞒 。Microsoft 姨 是 把 作 系 统 的 提供 震 ， 辐 只 

是 一 个 应 用 程序 的 并 发 商 ， 通 过 同 共 他 的 应 用 程序 开发 商 隐 瞒 一 些 操 作 系 统 界面 上 的 技术 关键 ， 就 
使 那些 开发 向 无 法 与 Microsoft 公平 竞争 ， 从 而 使 Microsoft 可 以 通过 对 关键 技术 的 垄断 达到 对 DOS/ 
Windows 应 用 软件 市 场 的 花 断 。 作 者 们 华 书 中 指责 Microsoft 这 样 做 不 仅 有 道德 上 的 问题 ， 也 有 法 律 上 
的 问题 。 在 否 涉及 法 律 问题 站 日 不 论 ， 忆 中 所 鹿 的 功能 确实 都 是 存在 的 ， 吕 以 通过 实验 证 实 ， 也 确实 
"EN 
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WAS A Microsoft 向 黎 户 提供 的 技术 资料 。 
要 是 将 FSF 与 Microsoft 放 在 一 起 ， 则 二 者 恰好 成 为 鲜明 的 对 比 。 差 判 之 大 ， 读 者 不 难 做 出 自己 的 
Biv 
GPL 的 正文 包 仿 在 一 个 时 COPYING WES. Aste cay Linux 系统 中 ， 该 文件 的 路 径 
名 为 /usrscrlinux/COPYING。 而 在 下 载 的 Linux 内 核 tar 文件 中 ， 经 过 解压 后 该 文件 在 顶层 日 录 中 。 有 
兴趣 或 有 需 旧 的 读者 可 以 〈 而 及 应 该 》 仔 组 阅读 。 


1.2 Intel X86 CPU 系列 的 寻 址 方式 


Intel 可 以 说 是 资格 最 老 的 微 处 理 器 必 片 制造 黄 了 ， 册 史上 的 第 … 个 微 处 理 堪 忆 片 4004 就 是 Intel 
制造 的 。 所 谓 X86 系列 ， 是 指 Intel 从 16 位 微 处 理 嚣 8086 开始 的 整个 CPU 忆 片 系列 ， 系 列 中 的 每 种 
型 号 都 保持 与 以 前 的 各 种 型 号 兼容 ， 主 要 有 8086. 8088. 80186. 80286. 80386. 80486 以 及 以 后 各 种 
型 号 的 Pentium 芯片 。 自 从 1BM 选择 8088 用 十 PC 个 人 计算 机 以 后 ，X86 系列 的 发 展 就 与 IJBM PC 及 
其 兼容 机 的 发 展 休 万 相关 了 。 其 中 80186 并 不 广为人知 , RS IBM 当初 决定 停 目 在 PC 机 中 使 用 80186 
有 天。 限于 篇 幅 ， 本 书 不 对 这 个 系 询 的 系统 结构 作 全 面 的 介绍 ， 出 只 是 结合 Linux 内 核 的 存储 管理 对 
其 导 址 方式 作 些 简 要 的 说 明 。 

在 X86 系列 中 ，8086 和 8088 是 16 位 处 理 器 ， 而 从 80386 开始 为 32 位 处 理 器 ，80286 则 是 该 系 全 
从 8088 到 80386， 也 就 是 从 16 位 到 32 位 过 渡 时 的 个 中 间 步 坚 。80286 m ATE 16 位 处 理 器 ， 但 是 
在 寻 址 方式 上 开始 了 从 “实地 址 模式 ”到 “保护 模式 ”的 过 渡 。 

当 我 们 说 一 个 CPU 是 “16 位 ”或 “32 位” 时， 指 的 是 处 理 涡 中 “算术 逻辑 单元 ”CALU) 的 宽度 。 
系统 总 线 中 的 数据 线 部 分 ， 称 为 “数据 总 线 ”， 通 常 与 ALU 具有 相同 的 宽度 《但 有 例外 ?。 混 么 “地 址 
总 线 ” 的 宽度 呢 ? 最 日 然 的 地 址 总 线 宽度 是 与 数据 总 线 一 致 。 这 是 因为 从 程序 设计 的 角度 来 说 ， 一 个 
地 址 ， 也 就 是 一 个 指针 ， 最 好 是 与 一 个 整数 的 长 度 一 致 。 但 是 ， 如 果 从 8 位 CPU 寻 址 能 力 的 角度 来 考 
虑 ， 则 这 实际 上 是 不 现实 的 ， 因 为 个 8 位 的 地 址 只 能 用 来 寻访 256 个 不 同 的 地 址 单元 ， 这 显然 太 小 
J. 所以， 一 般 8 位 CPU 的 地 址 总 线 都 是 16 位 的 。 这 也 造成 了 36 8 p CPU 在 内 部 结构 上 的 一 些 不 
均匀 性 ,在 8 位 CPU 的 指令 系统 中 常常 会 发 现 一 些 实际 上 是 16 位 的 把 作 。 当 CPU 的 技术 从 8 位 发 展 
到 16 位 的 时 候 ， 本 来 地 址 总 线 的 宽度 是 可 以 跟 数 据 总 线 至 了 ， 但 起 当时 入 们 已 经 觉得 由 I 位 地 址 
所 决定 的 地 址 空间 (64K) 还 是 太 小 ， 还 应 该 加 大 。 加 到 多 大 昵 ?结合 当时 人 们 所 能 看 到 的 微型 机 的 应 
用 前 景 ， 以 及 存储 器 芯片 的 价格 ，Intel 决定 采用 1M， 也 就 是 说 64K 的 16 倍 ， 那 时 觉得 应 该 是 足够 了 。 
确实 ，1M 字 节 的 内 存 空间 在 当时 已 经 很 使 一 些 程 序 员 激动 不 已 了 ， 那 时 候 配 置 齐全 的 小 型 机 ， 甚 至 大 
型 机 也 只 不 过 是 4M 字 节 的 内 存 空间 。 在 计算 机 的 发 展 史 上 ， 几 乎 每 一 个 技术 涩 策 ， 往 征 很 快 就 被 事 
后 出 现 的 事实 证 明 是 估计 不 足 的 。 

既然 Intel 决定 了 在 其 16 位 CPU, BY 8086 中 采用 1M 字 节 的 内 存 地 址 空间 ， 地 址 总 线 的 宽度 也 就 
相应 地 确定 了 ， 那 就 是 20 人 位。 这样， “个 问题 就 摆 在 了 Intel iT A RAA: 虽然 地 址 总 线 的 宽度 
是 20 位 , 但 CPU tH ALU 的 宽度 却 只 有 16 位， 也 就 是 说 可 直接 加 以 运算 的 指针 的 长 度 起 16 位 的 。 如 
何 来 填补 这 个 空 阶 昵 ?可 能 的 解决 方案 当然 有 很 多 种 。 例 旭 ， 可 以 像 在 一 些 8 位 CPU 中 那样 ， 增 设 一 
HE 20 位 的 指令 专用 十 地 址 运算 和 操作 ， 但 是 水 样 义 会 造成 CPU 内 部 结构 的 不 均 色 性 。 再 如 ， 当 时 的 
PDP-11 小 型 机 也 是 16 位 的 , 但 是 结合 其 MMU CHATEAR TES CO 可 以 将 16 位 的 地 址 映射 人 到 24 位 的 地 
HER. AR, Intel 设计 了 一 种 在 当时 看 米 还 不 失 巧 妙 的 方法 ， 即 分 段 的 方法 。 
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Intel Œ 8086 CPU 中 设置 了 四 个 “ 段 寄 存 器 ”CS、DS、SS 和 ES， 分 别 几 于 可 执行 代码 即 指令 、 
数据 、 扒 栈 和 其 他 。 合 个 段 寄 存 器 都 是 16 位 的 ， 对 应 十 地 址 总 线路 的 高 16 位 。 每 条 “ 访 内 ”指令 中 
的 “内 部 地 址 ” 痢 起 16 位 的 ， 但 是 在 送 上 地 址 总 线 之 前 都 在 CPU 内 部 自动 地 与 某 个 段 寄 存 器 中 的 内 
容 相 加 ， 形 成 一 个 20 位 的 实际 地 址 。 这 样 ， 就 实现 了 从 16 位 内 部 地 址 到 20 位 实际 地 址 的 转换 ， 或 者 
“RIJ” XCB SEDE EB I RUIN ADE NET 20 位 地 址 总 线 中 的 高 16 Ay, BrELTETR OT SE E. LAS 
内 部 地 址 中 的 高 12 WSR AEN 16 位 相 加 ， 而 内 部 地 址 中 的 低 4 位 保留 不 变 。 这 个 方法 与 操作 
系统 理论 中 的 “ 段 式 内 存 管 理 ” 相 似 ， 但 并 不 完全 样 ， 主 要 是 没有 地 址 空间 的 保护 机 制 。 对 于 每 一 - 
个 山 段 寄存 器 的 内 容 确定 的 “基地 址 ”， 一 个 进程 总 是 能 够 访问 从 此 开始 的 64K 字 节 的 连续 地 址 空间 ， 
而 无 法 加 以 限制 。 同 时 ， 可 以 用 米 改 变 段 寄存 器 内 容 的 指令 也 人 不 是 什么 “特权 指令 ”， 也 就 是 说 ， 通 过 
改变 段 寄 存 器 的 内 容 ，… :个 进程 可 以 随心 所 欲 地 访问 内 存 中 的 任何 一 个 单元 ， 而 丝 点 不 受到 限制 。 不 
能 对 一 个 进程 的 内 存 访问 加 以 限制 , 也 就 谈 不 上 对 其 他 进程 以 及 系统 本 身 的 保护 ,与 此 相应 ， :个 CPU 
如 果 缺 乏 对 内 存 访问 的 限制 ， 或 者 说 保护 ， 就 谈 不 上 什么 内 存 管理 ， 也 就 谈 不 上 是 现代 意义 上 的 中 央 
AFER. FAT 8086 的 这 种 内 存 导 址 方式 缺乏 对 内 存 空间 的 保护 ， 所 以 为 了 区 别 十 后 来 出 现 的 “保护 模 
式 ”， 器 称 为 “实地 址 模式 ”。 

显然 ， 在 实地 址 模式 上 是 无 法 建造 起 现代 意义 上 的 “操作 系统 ”的 。 

针对 8086 的 这 种 缺陷 , Intel 从 80286 开始 实现 其 “保护 模式 ”(Protected Mode, 但 是 早期 的 80286 
只 能 从 实地 址 模式 转 入 保护 模式 ， 却 不 能 从 保护 模式 转 回 实地 址 模式 )。 同时, 不 久 以 后 32 位 的 80386 
CPU 也 开发 成 功 了 。 这 样 ， 从 8088/8086 到 80386 就 完成 了 一 次 从 比较 原始 的 16 位 CPU 到 现代 的 32 
位 CPU 的 飞跃 ， 而 80286 则 变 成 这 次 飞跃 的 一 个 中 间 步 骤 。 从 80386 以 后 ，Intel 的 CPU 历经 80486. 
Pentium, Pentium [| 竺 人 竺 型 号 ， 盟 然 在 速度 上 提高 了 好 几 个 量 级 ， 功 能 土 也 有 不 小 的 改进 ， 但 基本 上 必 
于 问 一 种 系统 结构 中 的 改进 与 加 强 ， 而 并 无 重大 的 质 的 改变 ， 所 以 统称 为 3386 结构 ,或 1386 CPU. F 
面 我 们 将 以 80386 为 背景 ， 介 红 1386 系列 的 保护 模式 。 

80386 是 个 32 位 CPU， 也 就 是 说 它 的 ALU 数据 总 线 是 32 位 的 。 我 们 在 前 面 说 过 ， 最 自然 的 地 址 
总 线 宽度 是 与 数据 总 线 一 性 。 当 地 址 总 线 的 宽度 达到 32 位 时 ， 其 寻 址 能 力 达到 了 4G(4 FPI AFA 
存 来 说 似乎 是 足够 了 。 所 以 ， 如 果 新 设计 一 个 32 位 CPU 的 话 ， 其 结构 应 该 是 可 以 做 到 很 简洁 、 很 自 
然 的 。 但 是 ，80386 却 无 法 做 到 这 一 点 。 作 为 一 个 产品 系列 中 的 cA. 80386 必须 维持 那些 段 寄存 器 ， 
还 必须 支持 实地 址 模式 ， 任 此 同时 又 要 能 文 持 保护 模式 。 而 保护 模式 是 完全 归 搞 …… 套 ， 还 是 建立 在 段 
寄存 器 的 基 侧 上 以 保持 风格 上 的 一 致 ， 放 卫 还 能 节约 CPU 的 内 部 资源 呢 ? 这 对 于 Intel 的 设计 人 员 无 
疑义 是 一 次 挑战 。 

Intel 选择 了 在 段 寄存 器 的 基础 上 构筑 保护 模式 的 构思 ， 峰 且 保 留 段 寄存 器 为 16 位 (这样 冰 可 以 利 
Rig SUA Bt (rds, 但 是 却 又 增添 了 两 个 段 寡 存 器 FS 和 GS。 为 了 实现 保护 模式 ， 光 是 用 段 寄存 
器 来 确定 一 个 基地 址 是 不 够 的 ， 全 少 还 得 要 有 个 地 址 段 的 长 度 ， 嵌 且 还 需要 一 些 其 他 的 信息 ， 如 访 
问 权限 之 类 。 所 以 ， 这 里 需 此 的 是 一 个 数据 结构 ， 而 并 非 .个 单纯 的 基地 址 。 对 此 ，lntel 设计 人 人员 的 
基本 思路 是 : 竺 保 护 横 臣 下 改变 段 寄存 只 的 功能 ， 使 其 从 “个 单纯 的 基地 三 《变相 的 基地 址 ) 变 成 指 
四 这 样 “个 数据 结构 的 指针 。 这 样 ， 冯 一 条 访 内 存 指令 发 出 “个 内 存 地 址 时 ，CPU 就 可 以 这 样 来 归纳 
出 实际 上 应 该 放 上 数据 总 线 的 地 址 : 

(1) 根据 指令 的 性 质 来 确定 应 该 使 用 哪 一 个 段 寄 存 器 ， 例 如 转移 指令 中 的 地 址 在 代码 段 ， 而 取 数 

指令 中 的 地 址 在 数据 段 。 这 一 点 与 实地 址 模式 相同 。 

(2) 根据 段 寡 存 器 的 内 容 ， 找 到 相应 的 “地 丝 段 描述 结构 ” 

(3) 从 地 址 段 描述 结构 中 得 到 基地 址 。 
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(4) 将 指令 中 发 出 的 地 址 作为 位 移 ， 与 段 朱 述 结构 中 规定 的 段 长 度 相 比 ， 看 看 是 否 越界 。 

(5) 根据 指令 的 性 质 和 段 描述 符 中 的 访问 权限 来 确定 是 合 越 权 。 

(6) 将 指令 中 发 出 的 地 址 作为 位 移 ， 与 基地 相 加 而 得 出 实际 的 “ 物 埋 地 址 ”。 

虽然 段 描述 结构 存储 在 内 存 中 , 在 实际 使 用 时 却 将 其 装载 入 CPU 中 的 一 组 “影子 ”结构 ， 而 CPU 
在 这 行 时 则 使 用 其 在 CPU 中 的 “影子 ”从 “保护 ”的 角度 考虑 ， 在 由 指令 给 出 的 ) 内 部 地 址 《或 
者 说 “逻辑 地 址 ”) 转换 成 物理 地 址 的 过 程 中 ， 必 须要 在 菜 个 坏 节 上 对 访问 权限 进行 比 对 ， 以 防止 不 具 
备 特 权 的 用 户 程序 通过 玩弄 某 些 诡计 《例如 修改 段 寄存 器 的 内 容 ， 修 改 段 描述 结构 的 内 容 等 )， 得 以 非 
法 访问 其 他 进程 的 空间 或 系统 空间 。 

明白 了 这 个 思路，80386 的 段 式 内 存 管理 机 制 就 比较 地 容易 理解 了 (还 是 很 复 从 )。 下 向 就 是 此 机 
制 的 实际 实现 。 

首先 ,在 80386 CPU 中 增设 了 两 个 寄存 器 :一 个 是 全 局 性 的 段 描述 表 寄 存 器 GDTR( global descriptor 
table register)， 淄 一 个 是 局 部 性 的 段 描述 表 寡 存 器 LDTR(ocal descriptor table register)， 分 别 可 以 用 来 
指向 存储 在 内 存 中 的 一 个 段 描述 结构 数组 ， 或 者 称 为 段 描 述 表 。 由 于 这 两 个 寄存 器 是 新 增设 的 ， 不 存 
在 与 原 有 的 指令 足 否 兼容 的 问题 ， 访 问 这 两 个 寄存 器 的 专用 指令 便 设 计 成 “特权 指令 ”。 

全 此 基础 上 ， 段 寄存 器 的 访 13 02 CC 3 位 另 作 他 放 》 用 作 访 问 段 撒 述 表 中 具体 撒 述 结构 的 下 标 
(index)， 如 图 1.1 tax. 


表示 特权 级 别 ， 






TI = 0 时 使 用 GDTR 
= ] 时 使 用 LDTR 


从 8192 个 全 局 或 局 部 描述 
表 项 中 选择 一 个 描述 符 


1.1 段 寄存 器 定义 


GDTR 或 LDTR 中 的 段 描 述 表 指针 和 和 上段 寄存 器 中 给 出 的 下 标 结合 在 一 起 ， 才 决定 了 具体 的 段 描 述 
表 项 在 内 存 中 的 什么 地 方 ， 也 可 以 理解 成 ， 将 段 寄 存 器 内 容 的 低 3 位 屏蔽 掉 以 后 与 GDTR 或 LDTR 中 
的 基地 址 相 加 得 到 描述 表 项 的 起 始 地 址 。 因 此 号 无 法 通过 修改 描述 表 项 的 内 容 米 玩 弄 诡计 ， 从 而 起 到 
保护 的 作用 。 每 个 段 描述 表 项 的 大 小 是 8 个 字 节 ， 冬 个 描述 表 项 含有 有 段 的 基地 址 和 段 的 大 小 ， 再 加 上 
其 他 一 些 信 总 ， 其 结构 如 网 1.2 所 示 。 

结构 中 的 B31~-B24 和 B23—B16 分 别 为 基地 址 的 bit16 一 bit23 和 bit24~-bit31。 而 L19~~L16 利 
L15--LO WARK (limit i bit0--bitl5 和 bit16 一 bit19。 其 中 DPL 是 个 2 位 的 位 段 ， 而 type 是 一 个 4 
位 的 位 段 。 它 们 所 在 的 整个 字 世 分解 如 图 1.3 所 未。 
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B31—B24 L19—L16 


B 15—80 
Li5—L0 


图 1.2 8 字 节 段 描述 表 项 的 定义 






| TYPE | 


DPL S E |ED/C| RW | A 


A=0 本 段 未 被 访问 : =1 已 被 访问 


E=0， 数 据 段 
ED=0, [Fl LIFR (BE PO 
ED=1, In] F(R RE OERE) 
W=0， 不 能 被 写 入 
Wel, uf5A 

， 代 码 段 
C=0， 忽 视 特 权 级 
C=1， 遵 循 特权 级 
R=0， 不 可 读 
R=1， 可 读 


S=0， 系 统 描 述 项 
S=1， 代 码 或 数据 段 描 述 项 


DPL-00—01. AERA AL 
P=0， 挡 述 项 无 定义 
P=1T， 段 包含 有 效 基 地 址 和 界限 
图 1.3 RRR TYPE 字 节 的 定义 
我 们 也 可 以 用 一 段 “ 擅 代 公 ”来 说 时 整 个 段 描述 结构 


typedef struct | 
unsigned int base24 31 : 8; /* 基地 址 的 最 高 8 位 */ 


unsigned int g :1: / granularity， 表 段 的 长 度 单位 ，0 表示 字 节 ，1 表示 4KB */ 
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unsigned int db: l;  /* defalut operation size 存 取 方式 0=16 位 ，1=32 位 */ 


unsigned int unused : 1; /* 固定 设置 成 0 */ 
unsigned int avl : 1; /* avalable， 可 供 系 统 软件 使 用 */ 
unsigned int seg limit 16 19 : 4; /* 段 长 度 的 最 高 4 位 */ 
unsigned int p: l; /* segment present, Jg 0 时 表示 该 段 的 内 容 不 在 内 存 中 */ 
unsigned int dpl : 2; /* Descriptor privilege level, WIARA RAR */ 
unsigned int s: 1; /* 描述 项 类 型 ”1 表示 系统 ，0 表示 代码 或 数据 */ 
unsigned int type : 4; /* 段 的 类 型 ， 与 上 上 面 的 $ 标志 位 一 起 使 用 */ 
unsigned int base 0 23 : 24; / 基地 址 的 低 24 位 */ 
unsigned int seg limit 0 15 : 16 /* 段 发 度 的 低 16 位 */ 

) 段 描述 项 ; 


以 这 里 的 位 段 type 为 例 ,“: 4” 表 示 其 宽度 为 4 位 。 整 个 数据 结构 的 大 小 为 64 位 ， 即 8 TET. 

读者 一 定 会 问 : 为 什么 把 段 描述 项 定义 成 这 样 一 种 奇怪 的 结构 ? 例如 ， 为 什么 基地 址 的 高 8 位 和 
低 24 位 不 连 在 一 起 ? 最 自然 也 最 合理 的 解释 就 是 ， 开 始 时 Intel 的 意图 是 24 位 地 址 空间 ， 后 来 又 改 成 
32 位 地 址 空间 。 这 也 可 以 从 段 长 度 字段 也 是 拆 成 两 节 得 到 印证 : 当 g 标志 位 为 1 时 ,长 度 的 单位 为 4KB， 
而 段 长 度 字 段 的 低 16 位 的 容量 是 64K， 所 以 一 个 段 的 最 大 可 能 长 度 为 64K X4K=256M, MIE AE 24 
位 地 址 空间 的 大 小 。 所 以 ， 可 以 看 出 ，Imtel 起 先 意欲 使 用 24 位 地 址 空间 ， 不 和 久 又 认识 到 应 该 用 32 位 ， 
但 是 80286 已 经 发 售 出 去 了 ， 于 是 就 只 好 修 修补 补 。 当 时 的 Intel 确实 给 人 一 种 “小 脚 女人 走路 ”的 感 
TL o 

每 当 一 个 段 寄 存 器 的 内 容 改 变 时 (通过 MOV、POP 等 指令 或 发 生 中 断 等 事件 )，CPU 就 把 出 这 段 
寄存 器 的 新 内 容 所 决定 的 段 撒 述 项 装 入 CPU 内 部 的 一 个 “影子 ”描述 项 。 这 样 ，CPU 中 有 几 个 段 寄 存 
器 就 有 几 个 影子 描述 项 ， 所 以 也 可 以 看 作 是 对 段 寡 存 器 的 扩充 。 扩 充 后 的 段 寄存 器 分 成 两 部 分 ， 一 部 
分 是 可 见 的 《对 程序 而 言 )， 还 与 原先 的 段 寄 存 器 一 样 ， 另 -部 分 是 不 可 抑 的 ， 就 是 用 来 存放 影子 描述 
项 的 空间 ， 这 一 :部 分 是 专 供 CPU 内 部 使 用 的 。 

在 80386 的 段 式 内 存 管理 的 基础 上 ， 如 果 把 每 个 段 寄 存 器 都 指 向 同一 个 描述 项 ， 而 在 该 描述 项 中 
则 将 基地 址 设 成 0， 并 将 段 长 度 设 成 最 大 ， 这 样 便 形 成 一 个 从 0 开始 覆盖 整个 32 位 地 址 空间 的 -个 整 
段 。 由 于 基地 址 为 0， 此 时 的 物理 地 址 与 还 辑 地 址 相同 ，CPU 放 人 到 地 址 总 线 上 去 的 地 址 就 是 在 指令 中 
给 出 的 地 址 。 这 样 的 地 址 有 曾 于 由 “ 段 寄 存 器 / 位 移 量 ”构成 的 “层次 式 ” 地 三, 所 以 Intel MHA “OP 
H (Flat) 地址 。Linux 内 核 的 源 代码 (更 确切 地 应 该 说 是 gcc) KATHAHE. AEZH, PE 
址 的 使 用 并 不 意味 着 绕 过 了 段 描 述 表 、 段 寄存 器 这 -整套 段 式 内 存 管 理 的 机 制 ， 而 只 是 段 式 内 存 管理 
的 一 种 使 用 特例 。 

关于 80386 的 段 式 内 存 管理 就 先 介 绍 这 些 ， 以 后 随 着 代码 分 析 的 进展 视 需 要 再 加 以 补充 。 读 者 想 
要 了 解 完整 的 细节 可 以 参阅 Intel 的 有 关 技 术 资料 。 

利用 80386 对 段 式 内 存 管理 的 硬件 支持 ， 可 以 实现 段 式 虚 存 管理 。 如 前 所 述 ， 当 一 个 段 寄 存 需 的 
内 容 改变 时 , CPU 要 根据 新 的 段 寄存 器 内 容 以 及 GDTR 或 LDTR 的 内 容 找到 相应 的 段 描 述 项 并 将 其 状 
入 CPU 中 。 在 此 过 程 中 ，CPU 会 检查 该 描述 项 中 的 p Edu CAO "present. WR p 标志 位 为 0， 
就 表示 该 描述 项 所 指向 的 那 - 段 内 容 不 在 内 存 中 《也 就 是 说 ， 在 磁盘 上 的 某 个 地 方 ;， 此 时 CPU 会 产 
后 一 次 异常 《exception， 类 似 于 中 断 )， 临 相应 的 服务 程序 便 可 以 从 磁盘 父 换 区 将 这 段 的 内 容 读 入 内 
存 中 的 某 个 地 方 ， 并 拭 此 设置 描述 项 中 的 其 地址， 再 将 p 标志 位 设置 成 1。 相 应 地 ， 内 人 存 中 暂时 不 用 的 
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存储 段 则 可 以 写 入 磁盘 ， 放 将 其 描述 项 中 pp 标志 位 改 成 0。 

对 段 式 内 存 管理 的 支持 只 是 1386 保护 模式 的 个 组 成 部 分 ,如果 没有 系统 状态 和 用 户 状态 的 分 离 ， 
以 及 特权 指令 (只 允许 企 系 统 状态 下 使 用 ) 的 设立 ， 那么 尽 答 有 了 前 述 的 段 式 内 存 管理 ， 也 还 不 能 起 到 保 
护 的 效 蝶 。 前 而 已 经 提 到 过 特权 指令 的 设置 ， 如 用 来 装 入 和 存储 GDTR 和 LDTR 的 指令 LGDT/LLDT 
和 SGDT/SLDT 等 就 都 是 特权 指令 。 正 是 由 于 这 些 指 令 都 只 能 在 系统 状态 (也 就 是 在 操作 系统 的 内 核 中 ) 
使 用 ， 才 使 得 用 广 程序 不 但 个 能 改变 GDTR 和 LDTR 的 内 容 ， 还 因为 既 无 法 确 知 其 段 描 述 表 在 内 存 中 
的 位 置 ， 义 雹 法 访问 其 段 描 述 表 所 在 的 空间 (只 能 在 系统 状态 下 才能 访问 )， 从 而 无 法 通过 修改 段 揪 述 
项 来 打破 系统 的 保 扩 机制 。 IBA, 80386 怎么 米 分 隔 系 统 状态 和 用 户 状 态 ， 并 且 提 供 在 两 种 状态 之 间 切 
换 的 机 制 呢 ? 

80386 并 不 只 是 像 一 般 CPU 通常 所 做 的 那样 ， 划 分 出 系统 状态 和 用 广 状态 ， 而 是 划分 成 四 个 特权 
级 别 ， 其 中 0 级 为 最 高 ，3 RARI GF -条 指令 也 都 有 其 天 用 级 别 ， 如 前 述 的 LGDT， 就 只 有 在 0 
级 的 状态 下 才能 使 用， 而 - 般 的 输入 / ULES CIN, OUT) WEA 0 REX 1 级 。 通 常 ， 用 户 的 应 
用 程序 都 是 3 ZR. - 般 程 序 的 当前 运行 级 别 由 其 代 公 段 的 局 部 描述 项 ( 即 由 段 寄 存 器 CS 所 指向 的 局 部 
段 描述 项 ) 中 的 dpl 字段 决定 (dpl 表示 “descriptor privilege level)。 当 然 ， 每 个 描述 项 中 的 dpl 字段 都 
是 在 0 级 状态 下 由 内 核 设 定 的 。 而 全 局 段 描述 的 dpl 字段 ， 则 又 有 所 不 同 ， 它 是 表示 所 和 击 的 级 别 。 

前 面 讲 过 ，16 位 的 段 寄存 器 中 的 13 位 用 作 下 标 米 访问 段 描 述 表 , 而 低 3 位 是 干什么 的 呢 ? 我 们 
还 是 通过 一 段 伪 代 码 来 说 明 : 


typedef struct 1 
unsigned short seg idx : 13; /* 13 位 的 段 撒 述 项 下 标 */ 
unsigned short ti : 1; /* BRIAR aL, O ÆR GDI, 1 表示 LDT */ 
unsignedshort rpl : 2; /* Requested Privilege Level ， 柴 求 的 优先 级 别 */ 
| RATA: 


当 段 寄存 器 CS PH u 位 为 1 时 ， 故 示 费 使 用 全 局 段 描 述 表 ， 为 0 时 ， 则 表示 要 使 用 局 部 段 描述 
表 而 rpl 则 表示 所 要 求 的 权限 。 当 改变 :个 段 寄存 器 的 内 容 时 ，CPU 会 如 以 检查 ， 以 确保 该 段 程序 的 
当前 执行 权限 和 段 寄 存 器 所 指定 要 求 的 权限 均 不 低 二 所 妆 访 问 的 于 一 段 内 存 的 权限 dpl。 

全 于 怎样 在 相同 的 执行 权限 之 间 切 换 ， 我 们 将 在 进程 调度 、 系 统 调用 和 中 断 处 理 的 有 关 章 节 中 讨 
论 。 此 外 ， 除 了 全 局 段 描述 表 指 针 GDTR 和 局 部 段 描 述 表 指 计 LOTR 两 个 寄存 器 外 ， 其 实 1386 CPU 
中 还 有 个 中 有 断 向 量 表 指 针 寄存 器 IDTR、 与 进程 《在 Intel 术语 中 称 为 “任务 ”，Task) AXIA A TR 
以 太 描 述 任务 状态 的 “任务 状态 段 ”TSS 等 ， 这 些 都 将 在 其 他 章节 中 有 需要 时 再 加 以 介绍 。Imtel 在 实 
IN 1386 的 保护 模式 时 将 CPU 的 执行 状态 分 成 四 级 , 意图 是 为 满 是 更 为 复杂 的 操作 系统 和 运行 环境 的 需 
要 。 有 些 操作 系统 ， 如 OS/2 中 ， 也 确实 用 了 。 但 是 很 多 人 部 怀疑 是 否 真 有 必要 搞 竺 那么 复杂 。 事 实 上 ， 
几乎 所 有 广泛 使 用 的 CPU 都 没有 这 么 复杂 。 而 且 ， 在 80386 | 实现 的 各 种 Unix 版 本 ， 包 括 Linux, #8 
只 用 了 两 个 级 别 ， 即 0 级 和 3 级 ， 作 为 系统 状态 和 用 广 状 态 。 本 书 在 以 后 的 讨论 中 将 沿用 Unix 的 传统 
称 之 为 系统 状态 和 用 户 状态 。 
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1.3 B86 的 页 式 内 存 管理 机 制 


学 过 操作 系统 原理 的 读者 都 知道 ， 内 存 管 理 有 两 种 ，- 种 是 段 式 管理 ， 另 一 种 是 页 式 管理 ， 而 页 
式 管 理 更 为 先进 。 从 80 年 代 中 期 开始 ， 页 式 内 存 管 理 进入 了 各 种 操作 系统 (以 Unix 为 主 〉 的 内 核 ， 
一 时 成 为 操作 系统 领域 的 一 个 热点 。 

Intel 从 80286 开始 实现 其 “保护 模式 ”， 也 即 段 式 内 存 管理 。 但 是 很 快 就 发 现 ， 光 有 段 式 内 存 管理 
而 没有 页 式 内 存 管理 是 不 够 的 ,那样 会 使 它 的 X86 系列 逐渐 失去 竞争 力 以 及 作为 主流 CPU 产品 的 地 位 。 
因此 ， 在 不 久 以 后 的 80386 中 就 实现 了 对 页 式 内 存 管理 的 支持 。 也 就 是 说 ，80386 除了 完成 并 完善 从 
80286 开始 的 段 式 内 存 管理 的 同时 还 实现 了 页 式 内 存 管理 。 

前 面 讲 过 ，80386 的 段 式 内 存 管 理 机 制 ， 是 将 指令 中 结合 段 寄 存 器 使 用 的 32 位 逻辑 地 址 映射 〈 转 
换 ) 成 同样 是 32 位 的 物理 地 址 。 之 所 以 称 为 “物理 地 址 ”， 是 因为 这 是 真正 放 到 地 址 总 线 上 去 ， 并 用 
以 寻访 物理 上 存在 着 的 具体 内 存单 元 的 地 址 。 但 是 ， 段 式 存 储 管理 机 制 的 灵活 性 和 效率 都 比较 差 。 一 
方面 “ 段 ” 是 可 变 长 度 的 ， 这 就 给 盘 人 区 交换 操作 带 来 了 不 便 ; 男 一 方面 ， 如 果 为 了 增加 灵活 性 而 将 一 
个 进程 的 空间 划分 成 很 多 小 段 时 ， 就 势必 要 求 在 程序 中 频繁 地 改变 段 寄存 器 的 内 容 。 同 时 ， 如 果 将 段 
分 小 ， 虽 然 一 个 段 描述 表 中 可 以 容纳 8192 个 描述 项 (因为 有 13 位 下 标 )， 也 未 必 就 能 保证 足够 使 用 。 
所 以 ， 比 较 好 的 办 法 还 是 采用 页 式 存 储 管理 。 本 来 ， 页 式 存 储 管理 并 不 需要 建 并 仁 段 式 存 储 管理 的 菇 
础 之 上 ， 这 是 两 种 不 同 的 机 制 。 可 起 ， 在 80386 中 ， 保 护 模式 的 实现 是 与 段 式 存储 密 不 可 分 的 。 例 如 ， 
CPU 的 当前 执行 权限 就 是 在 有 关 的 代码 段 描述 项 中 规定 的 。 恋 过 Unix 嘻 期 版 本 的 读者 不 妨 将 此 与 
PDP-11 中 的 情况 作 一 对 比 。 在 PDP-11 中 CPU 的 当前 执行 权限 存放 在 一 个 独 由 的 寄存 内 PSW 中 ， 而 
与 任何 其 他 的 数据 结构 没有 关系 。 因 此 ， 在 80386 中 ， 既 然 决定 利用 部 分 已 经 存在 的 资源 ， 而 不 是 完 
全 另起炉灶 ， 屠 就 无 法 绕 过 段 式 存 管 来 实现 页 式 存 管 。 也 就 是 说 ，80386 的 系统 结构 决定 了 它 的 页 式 存 
管 只 能 建立 在 段 式 存 管 的 基础 上 。 这 也 意味 着 ， 页 式 存 管 的 作用 是 在 由 段 式 存 管 所 映射 而 成 的 地 址 上 
再 加 上 一 层 地 址 映射 。 由 于 此 时 由 上 段 式 存 管 映射 而 成 的 地 址 不 再 是 “物理 地 址 ”了 ，Intel WERZA “E 
性 地 三 ”。 于 是 ， 段 式 存 管 先 将 逐 辑 地 址 映射 成 线性 地 址 ， 然 后 再 由 页 式 存 管 将 线性 地 直 映 射 成 物理 地 
be; 或 者 ， 当 不 使 用 页 式 存 管 时 ， 就 将 线性 地 址 直接 用 作物 理 地 址 。 

80386 把 线性 地 址 空间 划分 成 4K 末节 的 页 面 , 每 个 页 而 可 以 被 有 映射 至 物理 存储 空间 中 任意 RK 
字 节 大 小 的 区 间 (边界 必须 与 AK PNT). FARRER, HESS beat ON a dS Eht 
空间 还 是 连续 的 。 但 是 在 负 式 存 管 中 ， 连 续 的 线性 地 址 经 过 映射 后 在 物理 空间 却 个 一 定 连 续 〈 其 灵活 
性 也 正在 于 此 )。 这 里 值得 指出 的 是 ， 虽 然 页 式 存 管 是 建立 在 段 式 存 管 的 基础 上 ， 但 一 旦 启用 了 页 式 存 
答 ， 所 有 的 线性 地 址 都 此 经 过 页 式 映 射 ， 连 GDTR 与 LDTR 中 给 出 的 段 描 述 表 起 始 地 址 也 不 例外 。 

由 于 页 式 存 管 的 引入 ， 对 32 位 的 线性 地 址 有 了 新 的 解释 (以 前 就 是 物理 地 址 ): 


typeded struct 1 
unsigned int — dir:10; /* 用 作 页 面 表 日 录 中 的 卜 标 ， 该 目录 项 指向 一 个 页 面 表 */ 
unsigned int page:10; /* 用 作 有 具体 页 面 表 中 的 下 标 ， 该 表 项 指向 一 个 物理 页 而 */ 
unsigned int offset:12; /* Æ 4K 7D 49 EE LIBI AE E */ 

) 线性 地 址 ; 
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这 个 结构 可 以 用 图 1.4 形象 地 表示 。 
31 22 21 12 11 0 


图 1.4 线性 地 址 的 格式 


叮 以 看 出 ,入 页 面目 东 中 共有 2” = 1024 个 目录 项 ， 每 个 日 录 项 指向 一 个 页 面 表 ， 而 在 每 个 页 面 表 
中 又 共有 1024 个 页 面 描述 项 。 类 似 于 GDTR 和 LDTR， 又 增加 了 一 个 新 的 寄存 器 CR3 作为 指向 当前 
页 而 目 焉 的 指针 。 这 样 ， 从 线性 地 址 到 物理 地 址 的 映射 过 程 为 : 

(1) A CR3 取得 页 面 月 录 的 基地 址 。 

(2) 以 线性 地 址 中 的 dir 位 段 为 下 标 ， 在 目录 中 取得 相应 页 而 表 的 基地 址 。 

(3) 以 线性 地 址 中 的 page 位 段 为 下 标 ， 在 所 得 到 的 页 面 表 中 取得 相应 的 页 面 描述 项 。 

(4) 将 页 面 描述 项 中 给 出 的 页 面 基 地 址 与 线性 地 址 中 的 offset 位 段 相 加 得 到 物理 地 址 。 

(5 上 你 映射 过 程 可 用 向 1.5 自 疯 地 表示 。 





内 存 页 十 





1.5 页 式 映 射 示意 图 


那么 ,为 什么 点 使 用 册 个 层次 ， 先 找到 日 录 项 ， 再 找到 页 省 描述 项 ， 而 个 是 像 看 使 用 上段 寄存 器 时 那 
KE “和 步 到 位 呢 ? 这 是 出 于 空间 效率 的 考虑 。 如 果 将 线性 地 址 中 的 dir 和 page 册 个 位 段 合 并 在 一 起 是 20 
位 ， 上 因此 页 面 表 的 大 小 就 将 是 1EX1K=1M 个 表 项 。 册 于 每 个 页 面 的 大 小 为 4K 字 节 ， 总 的 空间 大 小 仍 
为 4KX1IM=4G， 正 好 是 32 位 地 址 空间 的 大 小 。 但 是 ， 实 际 上 很 难 想像 有 一 个 进程 会 需要 几 到 4G 的 
全 部 空间 ， 所 以 大 部 分 表 项 势必 是 空 着 的 。 可是， 在 一 个 数组 中 ， 妈 使 是 空 着 不 用 的 表 珊 也 占用 空间 ， 
这 样 就 造成 了 浪费 。 而 右 分 成 两 层 ， 则 页 表 可 以 视 需 要 而 设置 ， 如 果 日 录 中 条 更 为 空 ， 就 不 必 设 记 相 
应 的 页 表 ， 从 而 省 下 了 人 存储 空间 。 当 然 ， 在 最 坏 的 情况 卜 ， 如 果 一 个 进程 睛 的 要 用 到 全 部 GI 
间 ， 那 就 不 仪 不 能 节 人 省， 反而 柴 多 消耗 -个 日 录 所 占用 的 空间 ， 但 那 概 准 基 本 上 [是 0。 男 外 ,一 个 页 面 
的 大 小 是 AK 字 节 ， 而 每 一 个 页 面 表 项 或 日 录 表 项 的 大 小 是 4 个 字 节 。1024 个 表 项 正好 也 是 AK ET, 
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恰好 可 以 放 在 一 个 页 面 中 。 而 若 多 于 1024 项 就 要 使 日 录 或 页 面 表 跨 页 而 存放 了 。 也 正 为 此 ,在 64 位 
的 Alpha CPU 中 页 面 的 大 小 是 8K F, ALA HRAMA RRIA NAE KT 8 个 字 节 。 


如 前 所 述 ， 目 录 项 中 含有 指 问 





个 页 和 面 表 的 指针 ， 而 负 徊 家 项 中 则 含有 指向 个 页 面 起 始 地 址 的 


指针 。 由 于 页 面 表 和 页 面 的 起 始 地 址 都 总 是 在 AK 字 节 的 边界 上 ， 这 些 指针 的 低 12 位 都 永远 是 0。 这 
样 ， 在 上 月 录 项 和 页 表 项 中 者 只 要 有 20 MAT MT, WR PRU 12 位 则 可 以 用 于 控制 或 其 他 的 目 
Mo TE ARMA A: 


typedef 


} 


目录 项 的 上 直观 表示 如 网 1.6 表示 。 


unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 


unsigned 


目录 项 





struct 


int 
int 
int 
int 
int 
int 
int 
int 
int 
int 


Int 


负 表 基地 址 的 高 20 位 


( 


ptba : 20; 


avail : 
Eg Dus 
ps : l; 


reserved : 


a:l; 
ped : 
pwt : 


/* 页 表 基 地 址 的 高 20 */ 

/* 供 系 统 程序 员 使 用 */ 

/* gLobal， 全 局 性 页 面 */ 

/* 页 面 大 小 ，0 表示 拆字 节 */ 
1; Pk 你 留 ， 永远 是 0 */ 

/* accessed， 已 被 访问 过 */ 

/* 关闭 (不 使 用 ) 缓冲 存储 器 */ 

/* Write: Through, Flares */ 
/* HOW RR AS (BGA) 权限 ， 为 1 时 表示 用 户 权 限 */ 

/* 内 读 或 可 写 */ 

/* 为 0 时 表示 相应 的 页 面 不 在 内 存 中 */ 


EP X 
AICINWI|luUIW 
D|T 


Present 
Writable 

User defined 
Write-through 
Cache disable 
Accessed 


Dirty 


图 1.6 页 目录 项 示意 图 


页 表 项 的 结构 基本 上 与 此 相同 ， 但 没有 “页 面 大 小 ”位 ps， 上 所 以 第 8 位 保留 不 用 ， 但 第 7 位 (在 
日 录 项 中 保留 不 用 ) MWA D (Dirty) 标志 ， 表 示 该 页 面 己 经 被 写 过 ， 所 以 已 经“ 脏 ”了 。 当 页 面 表 项 
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或 丹 录 项 中 的 最 低位 p 为 0 时， 表示 相应 的 页 面 或 页 面 表 不 在 内 存 ， 根 据 其 他 一 些 有 关 寄 存 器 的 设置 ， 
CPU 可 以 产生 一 个 “页 面 错 ”(Page Fault) 异常 〈 也 称 为 缺 页 中 断 ， 但 异常 和 中 断 其 实 是 有 区 别 的 )。 
这 样 ， 内 核 中 的 有 关 蜡 常服 务 程序 就 可 以 从 伐 玲 上 的 页 面 交 换 区 将 相应 的 页 面 读 入 内 存 ， 并 且 相 应 地 
设置 表 项 中 的 基地 址 ， 并 将 p 位 设置 成 1。 相反 ， 也 可 以 将 内 存 中 暂 不 使 用 的 页 面 写 入 磁盘 的 诡 换 区 ， 
然后 将 相应 页 面 表 项 的 p 位 设置 为 0。 这 样 ， 就 可 以 实现 页 式 虚 存 了 。 妆 p 位 为 0 时 ， 表 项 的 其 余 各 位 
均 无 意义 ， 所 以 可 被 用 来 临时 存储 其 他 信息 ， 记 被 换 出 的 页 面 在 磁 益 上 的 位 置 等 等 。 

当 目录 项 中 的 ps (page size) 位 为 0 时 ， 包 含 在 由 该 目录 项 所 指 的 页 面 表 中 所 有 和 抽 血 的 大 小 都 是 
4K 字 节 ， 这 也 是 目前 在 Linux 内 核 中 所 采用 的 页 面 大 小 。 但 是 ， 从 Pentium 处 理 器 开始 ，Intel 引入 了 
PSE 页 面 大 小 扩充 机 制 。 当 ps 位 为 1 时 ， 页 面 的 大 小 语 成 了 4M 字 节 ， 而 页 面 表 就 不 再 使 用 了 。 这 时 
候 ， 线 性 地 址 中 的 低 22 位 就 全 部 用 作 在 AM 字 节 页 面 中 的 位 移 。 这 样 ， 总 的 寻 址 能 力 偿 是 没有 改变 ， 
Bl 1024X4M=4G， 但 是 映射 的 过 程 减 少 了 一 个 层次 。 随 着 内 存 容量 利 磁盘 容量 的 日 益 增 加 ， 磁 盘 访 问 
速度 的 显著 提高 ， 以 及 对 图 像 处理 要 求 的 日 益 增 加 ，4M 字 节 的 页 面 大 小 有 可 能 会 成 为 主流 。 在 这 “点 
E, Intel 倒 还 是 有 远见 的 。 

最 后 ，i386 CPU 中 还 有 个 寄存 器 CR0， 其 最 高 位 PG 是 页 式 映射 机 制 的 总 开关 。 当 PG 位 被 设置 
成 1 时 ，CPU 就 开启 了 页 式 存储 管理 的 映射 机 制 。 

从 Pentium Pro 开始 ，Intel 又 作 了 扩充 。 这 一 次 扩充 的 是 物理 地 址 的 宽度 。Intel 在 另 一 个 控制 寄存 
器 CR4 中 又 增加 了 一 位 PAE (表示 Physical Address Extension), “4 PAE 位 设置 成 1 时， 地 址 总 线 的 宽 
度 就 变 成 了 36 位 (又 增加 了 4 位 )。 与 此 相应 ， 页 式 存 储 管理 的 映射 机 制 也 自然 地 有 所 改变 。 不 过 大 
多 数 用 户 都 还 不 需要 使 用 36 位 (64G) 物 理 地 址 空间 ， 所 以 这 里 从 略 ， 有 兴趣 的 读者 可 以 参阅 Intel 的 有 
关 技术 资料 或 专著 。 此 外 ，Intel 已 经 推出 了 64 位 的 IA-64 系统 结构 ，Linux 内 核 也 已 经 支持 IA-64 系 
统 结 构 。 事 实 上 ，Linux 原来 就 已 经 在 Alpha CPU 上 支持 64 位 地 址 。 除 存储 管理 外 ，80386 还 有 很 强 
的 高 速 缓 溃 存 储 和 流水 线 功 能 。 但 是 对 于 软件 、 对 于 操作 系统 的 内 核 来 说 ， 那 在 很 大 程度 上 是 透明 的 ， 
所 以 本 书 将 仅 在 有 必要 时 才 加 以 简单 的 说 明 ， 而 个 在 此 详 述 了 。 


1.4 Linux 内核 源 代码 中 的 C 语 言 代码 


Linux 内 核 的 主体 是 以 GNU 的 C 语言 编写 的 ，GNU 为 此 提供 了 编译 工具 geco GNU XE C 语言 本 
号 (在 ANSIC 基础 上 ) 作 了 不 少 扩充 ， 可 能 是 读者 尚未 见 到 过 的 。 另 方面， 由 二 是 内 核 代 码 ， 往 往 
会 用 到 一些 在 应 用 程序 设计 中 不 常见 的 语言 成 分 或 编程 技巧 ， 也 许 使 读者 感到 陌生 。 本 书 并 非 介绍 
GNU C 语言 的 专著 ， 也 非 技 术 手册 ， 所 以 不 在 这 里 一 一 列举 和 详细 讨论 这 些 扩充 和 技巧 。 再 说 ， 离 开 
具体 的 情景 和 和 上下文， 罗列 一 大 堆 规 则 ， 对 于 读者 恐怕 也 没有 多 大 帮助 。 所 以 ， 我 们 在 这 里 只 对 可 能 
会 影响 读者 阅读 Linux 内 核 泛 程 序 ， 或 使 读者 感到 困惑 的 一 些 扩 人 充 和 技巧 先 作 一 些 简单 的 介绍 。 以 后 ， 
随 着 其 体 的 情景 和 代 色 的 展开 ， 在 需要 时 还 会 结合 实际 加 以 补充 。 

首先 ，gcc 从 C++ 语言 中 吸收 了 “inline" 和 “const”。 其 实 ，GNU 的 C 和 C++ 是 合 为 一 体 的 ，gcec 
BES C 编译 又 是 C++ 编译 ， 所 以 从 C++ 中 吸收 一 些 东 凸 到 C 中 是 很 自然 的 。 从 功能 上 说 ，inline 函数 
的 使 用 与 #define 宏 定 义 相 似 ， 但 更 有 相对 的 独立 性 ， 也 更 安全 。 使 用 inline 函数 也 有 利 寺 程 序 调试 。 
如 果 编 译 时 不 加 优化 ， 则 这 些 inline 函数 就 是 普通 的 、 独 立 的 函数 ， 更 便于 调试 。 调 试 好 了 以 后 ,再 
采用 优化 重新 编辑 一 次 ， 这 些 inline 函数 就 像 安 操 作 一 样 融 入 了 引用 处 的 代 但 中， 有 利于 提高 运行 效 
3E, Br inline 函数 的 大 量 使 用 ， 相 当 一 部 分 的 代码 从 .c 文件 移入 了 .h 文件 中 。 
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IRA, 为 了 支持 64 位 的 CPU 结构 (Alpha 就 是 64 位 的 )，gcc 增加 了 -种 新 的 基本 数据 类 型 “]ong 
long ”int*”， 该 类 型 在 内 核 代 码 中 常常 用 到 。 

许多 C 语言 都 支持 一 些 “ 属 性 描述 符 ”(attribute )， 如 “aligned”、”packed" 等 等 ，gcc 也 支持 不 少 
这 样 的 描述 符 。 这 些 描述 符 的 使 用 等 于 是 在 C 诸 言 中 增加 了 些 新 的 保留 字 。 可 是 ， 在 原来 的 C 语言 
(如 ANSIC) 中 这 些 词 并 非 保留 字 ， 这 样 就 有 可 能 产生 -- 些 冲突 。 例 如 ，gcc 支持 保留 字 inline， 可 是 
由 于 “inline” 原 非 保留 字 (在 C++ 中 是 保留 字 )， 所 以 在 老 的 代码 中 可 能 已 经 有 一 变量 名 为 inline， 这 
样 就 产生 了 冲突 。 为 了 解决 这 个 问题 ，gcc 允许 在 作为 保留 字 使 用 的 “inline* 前 、 后 都 加 上 “__”， 因 
而 “__inline __” 等 价 十 保留 字 “inline”"。 同 样 的 道理 ,，“__asm__" 等 价 于 “asm”*。 这 就 是 我 们 存 代 码 
中 有 时候 看 到 “asm”*， 而 有 时 候 义 看 到 “__asm__” 的 原因 。 

gcc Axi AREF “attribute”, HRERS. U: 

struct fool 
char a; 
int x[z] attribute ^ ((packed)): 
} 

这 里 属性 描述 *packed" 表 未 在 字符 a 与 整 型 数组 x 之 间 不 应 为 了 与 32 位 长 整数 边界 对 前 而 留 下 空 
润 。 这 样 ,，“packed” 就 不 会 与 变量 名 发 生 冲 突 了 。 

由 于 在 Linux 的 内 核 中 使 用 了 gee 对 C 的 扩充 , 很 白 然 地 Linux 的 内 核 就 只 能 用 gee 编译 。 不仅 如 
此 ， 由 于 gcc 和 Linux 内 核 在 平行 地 发 展 ， 一 - 旦 在 Linux 内 核 中 使 用 了 gcc， 在 其 较 新 版 本 中 有 了 新 增 
加 新 扩充 ， 就 不 能 再 使 用 较 老 版 本 的 gcc 来 编译 。 也 就 是 说 ，Linux 内 核 的 各 种 版 本 有 着 对 gee 版 本 的 
依赖 关系 。 读 者 自然 会 问 :“ 这 样 ，Linux 内 核 的 可 移植 性 是 否 会 受到 损害 ? ”回答 是 :“ 是 的 ， 但 这 是 
经 过 权衡 得 失利 浆 以 后 作出 的 决定 .” 首 先 ， 在 可 移植 性 与 本 身 的 质量 之 问 ，GNU 选择 了 以 质量 为 优 
先 。 再 说 ， 将 ge 移植 (其 实 是 扩充 ) 到 新 的 CPU 上 应 非 难 事 。 回 顾 -下 Unix 的 历史 。 最 初 的 Unix 是 
以 汇编 和 B 语 主 书 写 的 ， 正 是 因为 Unix 的 需要 才 有 了 C 语言 。 所 以 ，C 语言 可 说 是 Unix FEY. 
Unix 要 发 展 ,，C 语言 当然 也 要 发 展 。 对 于 Unix 来 说 ，C 语音 不 过 是 上 县， 而 工具 当然 村 服从 目的 本 身 
的 需要 。 其 次 ， 可 移植 性 问题 看 似 重 大 ， 其 实 并 不 太 严 重 。 如 前 所 述 ， 晶 前 的 Linux 内 核 源 代 码 已 经 
支持 几乎 所 有 重要 的 、 常 用 的 CPU, gee 支持 的 CPU 就 更 多 了 。 和 出 且 ，gcc 还 支持 对 各 种 CPU 的 交叉 
编译 。 

如 前 所 述 ，Linux 内 核 的 代码 中 使 用 了 大 量 inline MR. Bit, IPR ERE EH, AR 
中 仍 有 许多 宏 操 作 定义 。 人 们 常常 会 对 内 核 代码 中 一 些 宏 操作 的 定义 方式 感到 迷惑 不 解 ， 有 必要 在 这 
PE - 些 解 释 。 先 看 一 个 实例 ， 取 自 fs/proc/kcore.c。 


163  #define DUMP WRITE(addr,nr) do { memcpy (bufp, addr, nr): bufp += nr: } while(0) 


读者 想必 知道 ，do-while 循环 是 先 执行 后 间断 循环 条 件 。 所 以 ， 这 个 定义 意味 着 每 当 引 用 这 个 宏 
操作 时 会 执行 循环 体 一 次 ， 而 且 只 执行 一 次 。 可 是 ， 为 什么 要 这 样 通过 一 个 do-while 循环 来 定义 呢 ? 
这 似 于 有 点 怪 。 我 们 不 妨 看 看 其 他 几 种 可 能 。 首 先 ， 能 不 能 定义 成 如 下 式样 ? 


163 #define DUMP_WRITE(addr, nr) memcpy (bufp, addr, nr); bufp += nr; 


不 行 。 如 果 有 一 段 程序 在 个 if FAT P S| AIK SERVER SHAR, TEER PTL Baume jr 
来 说 明 : 
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if (addr) 

DUMP_WRITE (addr, nr) ; 
else 

do something else( ); 


经 过 预 处 理 以 后 ， 这 段 代码 就 会 变 成 这 样 ， 


if (addr) 

memcpy (bufp, addr, nr); bufp += nr; 
else 

do something else( ); 


编 详 这 段 代码 时 geo 会 失败 ， 并 报告 语法 出 错 。 因 为 gcc VW if HAZE memepy( ) 以 后 就 结束 了， 
然后 却 义 碰 到 一 个 else。 如 果 把 DUMP. WRITE( ) 和 do_something_else( ) 换 一 下 位 置 ， 编 译 倒是 可 以 通 
过 ， 问 题 却 更 严重 了 ， 央 为 不 管 条件 满 足 与 否 bufp += nr 都 会 得 到 执行 。 

读者 马上 会 想到 此 在 定义 中 加 上 花 括 号 ， 成 为 这 样 : 


163 define DUMP_WRITE(addr,nr)  imemcpy (bufp, addr, nr); bufp += nr;! 
可 是 ， 上 面 那 段 程序 还 是 通 人 不 过 编译 ， 央 为 经 过 预 处 埋 就 变 成 这 样 : 


if (addr) 

{memcpy (bufp, addr, nr); bufp += nr;}; 
else 

do something else( ); 


RF, gcc ÆRES] else HIE <” RUA if AQCHAR, Alu else PIE if BAT. 4 
EZ. P. KH do-while 的 定义 在 任何 情况 下 部 没有 问题 。 

了 解 了 这 一 点 之 后 ,再 来 看 对 “ 空 操 作 ” 的 定义 。 上 出 于 Linux 内 核 的 代码 要 兰 虑 到 各 种 不 同 的 CPU 
和 和 不同 的 系统 配置 ， 所 以 常常 需要 在 : 定 的 条 件 下 把 某 些 宏 操 作 定 义 为 空 操作 。 例 如 企 
include/asm-i386/system.h 中 的 prepare_to_switch( ): 


14 ftdcfine prepare to switch( ) do { } while(0) 
内 核 在 调度 “个 进程 运行 ， 进 行 切换 之 际 ， 在 有 些 CPU 上 需要 调用 prepare to. switch( ) 作 些 准备 ， 


读者 在 学 习 数 据 结构 时 “ 定 学 过 队列 ( 指 双 链 队列 ) 把 作 。 内 核 中 大 量 地 使 用 着 队列 和 队列 操作 , 而 
这 义 不 是 专门 属于 哪 一 个 方面 的 内 容 (如 进 种 管 理 、 文 件 系统 、 人 存储 管理 等 等 ),， 所 以 我 们 在 这 里 作 ” 些 
介绍 。 

如 果 我 们 有 一 种 数据 结构 foo， 并 且 击 要 维持 一 个 这 种 数据 结构 的 双 链 队列 ， 最 简单 的 、 也 是 最 常 
- 用 的 办 法 就 是 在 这 个 数据 结构 的 类 型 定义 中 加 入 两 个 指针 ， 例 如 : 


typedef struct foo 


{ 
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struct foo *prev; 
struct foo *next; 


然后 为 这 种 数据 结构 写 一 套用 于 各 种 队列 操作 的 子 程序 。 由 于 用 来 维持 队列 的 这 两 个 指针 的 类 型 
是 固定 的 (都 指向 foo 数据 结构 )， 这 些 子 程序 不 能 用 于 其他 数据 结构 的 队列 操作 。 换 言 之 ， 需 要 维持 多 
少 种 数据 结构 的 队列 ， 就 得 有 多 少 套 的 队列 操作 子 程序 。 对 于 使 用 队列 较 少 的 应 用 程序 或 许 不 是 个 大 
问题 ， 但 对 于 使 用 大 量 队 列 的 内 核 就 成 问题 了 。 所 以 ，Linux 内 核 中 采用 了 一 套 通用 的 、 一 般 的 、 可 以 
用 到 各 种 不 同 数据 结构 的 队列 操作 。 为 此 ， 代 码 的 作者 们 把 指针 prev 和 next 从 具体 的 “宿主 ” 数据 
结构 中 抽象 出 来 成 为 一 种 数据 结构 list_head， 这 种 数据 结构 既 可 以 “ 窗 答 ”在 其 体 的 竹 主 数据 结构 内 
部 ， 成 为 该 数据 结构 的 一 个 “连接 件 ”， 也 可 以 独立 存在 而 成 为 个 队列 的 涉 。 这 个 数据 结构 的 定义 在 
include/linux/list.h 中 《实际 上 是 数据 结构 类 型 的 申明 ， 为 行文 方便 ， 本 书 采 取 不 邦 么 “学 究 ”， 或 者 说 
不 那么 严格 的 态度 。 对 “定义 ”和 “申明 ”， 还 有 对 “数据 结构 类 型 ”和 “数据 结构 ”， 旋 至 “结构 ” 
这 些 词 也 常常 不 加 严格 区 分 。 尖 然 ， 我 们 并 不 鼓励 读者 这 样 做 )。 


16 struct list_head { 
17 struct list head *next, *prev; 
la E 


这 里 我 们 把 结构 名 以 粗 体 字 排出 ， 目 的 仅 在 于 醒目 ， 并 没有 特别 的 含义 。 如 果 需 要 有 某 种 数据 结 
构 的 队列 , 就 在 这 种 结构 内 部 放 上 一 个 list_head 数据 结构 。 DA FAA ee page 数据 结构 为 例 ， 
Hee XA: CH include/linux/mm.h) 


134 typedef struct page { 


135 struct list head list; 
138... struct page **next hash; 
141 struct list head lru; 


* © © č è #8 t$ 


148 } mem_map_t; 


ny OL, 在 page 数据 结构 中 寄宿 了 两 个 list_head 结构 ,或 者 说 有 商 个 队列 操作 的 连接 件 ， 所 以 page 
结构 可 以 同时 存在 于 两 个 双 链 队列 中 。 此 外 ， 结 构 中 还 有 个 单 链 指针 next_hash， 用 来 维持 一 个 单 链 的 
杂凑 队列 ， 不 过 我 们 在 这 里 并 不 关心 。 

对 于 宿主 数据 结构 内 部 的 每 个 list head. 数据 结构 都 要 加 以 初始 化 ， 可 以 通过 一 个 宏 操 作 
INIT LIST HEAD 进行 : 


25 define INIT LIST HEAD(ptr) do { \ 
26 (ptr) next = (ptr); (ptr) prev = (ptr); V 
2T ) while (0) 


参数 ptr 为 指向 需要 初始 化 的 list_head 结构 。 可 见 初始 化 以 后 山 个 指针 都 指向 该 list head 结构 自 
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身 。 
要 将 一 个 page 结构 通过 其 “ 队 州 汰 ”list 链 入 (有 时 候 我 们 也 说 “ 挂 入 ” 一 个 队列 时 ， 可 以 使 用 
list add( )， 这 是 一 个 inline AŽ, HARI Æ include/linux/list.h FP: 


53 static | inline void list add(struct list head *new, struct list head *head) 
54 { 

55 list add(new, head, head->next) ， 

56 } 


参数 new TRH EAR P] BITE ERE PA AY list_head 数据 结构 。 参 数 head 则 指向 链 入 点 ， 也 
是 个 list head 结构 ，' 尼 可 以 是 个 独立 的 、 真 正和 意义 土 的 队 询 头 ， 也 可 以 在 另 一 个 宿主 数据 结构 《甚至 
可 以 是 不 同类 型 的 箱 主 结构 ) 内 部 。 这 个 inline 函数 调用 另 一 个 inline EE, _list_add( ) 米 完成 操作 : 


[list add( ) > list add( )] 


20 /* 

30 * Insert a new entry between two known consecutive entries. 
31 

32 x This is only for internal list manipulation where we know 
33 * the prev/next entries already! 

34 */ 

35 static __inline__ void __list_add(struct list head * new, 
36 struct list head * prev, 

37 struct list head * next) 

38 { 

39 next->prev = new; 

40 new->next = next; 

4] new->prev - prev; 

42 prev-^next = new; 

43 } 


UTE AOA, HEBER TK EDK, AA ROS 
大 于 号 列 出 其 调用 路 径 , 这 种 路 径 通常 以 一 个 比较 重要 或 常用 的 函数 为 起 点 ,例如 这 里 就 是 以 list_add( ) 
为 起 点 。 不 过 ， 读 者 要 注意 ， 对 同 “函数 的 不 同调 用 路 径 往往 有 很 多 ， 我 们 列 出 的 只 是 在 共 体 的 情景 
或 讨论 中 的 路 径 。 例 如 ， 有 些 函 数 也 许 跳 过 list_add( ) 而 直接 调用 __list_add( )， 而 形成 只 :条 不 同 的 路 
径 。 双 于 __ist_add() 本 壬 的 代码 ， 我 们 就 把 它 留 给 读者 了 。 

青 来 看 从 队列 中 脱 链 的 操作 list_del( ): 


90 static __inline__ void list del(struct list head *entry) 


91 { 
92 __ list del(entry->prev，entry->next) ; 
93  ] 


H KEEA -Â inline 函数 __list_del( ) 来 完成 操作 : 
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[list_del( ) > | list del )] 


18 static | inline void |. list del(struct list head * prev, 
19 struct list head * next) 

80 { 

8l next—>prev = prev; 

82 prev—->next = next; 

83 } 


注意 在 __list_del( ) 中 的 操作 对 象 是 队列 中 在 entry 之 前 和 之 后 的 两 个 list_head 结构 。 如 果 entry 足 
队列 中 的 最 后 一 项 ， 则 二 者 相同 ， 就 是 队列 的 头 ， 那 也 是 “个 list_head 结构 ， 不 过 不 人 在任 何 宿主 结构 
内 部 。 

读者 也 许 已 经 等 不 及 要 问 了 : 队列 操作 都 是 通过 list_head 进行 的 ， 但 是 那 不 过 是 个 连接 件 ， 如 果 
我 们 手 上 有 个 宿主 结构 ， 那 当然 就 知道 了 它 的 某 个 list_head 在 那里 ， 从 而 以 此 为 参数 调用 list add( ) 
或 list_del( ); 可 是 ， 反 过 米 ， 当 我 们 顺 着 一 个 队列 取得 其 中 一 项 的 list head 结构 时 ， 义 怎样 找到 其 窒 
主 结构 呢 ? 在 list_head 结构 中 并 没有 指向 宿主 结构 的 指针 啊 。 毕 竞 ， 我 们 真正 关心 的 是 宿主 结构 ， 而 
个 是 连接 件 。 

是 的 ， 这 是 个 问题 。 我 们 还 是 通过 一 个 实例 来 看 这 个 问题 是 怎样 解决 的 。 下 面 是 取 自 
mm/page_alloc.c 中 的 一 行 代码 : 


eve )l 


188 page = memlist entry(curr, struct page, list); 


这 里 的 memlist entry( ) 将 “个 list head 指针 curr ME MEA EARE Eh, Hae CAE Mn 
其 宿主 page 结构 的 指针 。 读者 可 能 会 对 memlist_entry( ) 的 实现 和 调用 感到 困惑 。 因 为 其 调用 参数 page 
是 个 类 型 ， 而 不 是 其 体 的 数据 。 如果 看 一 上 函数 rmqueue( ) 的 整个 代码 ， 还 可 以 发 现在 那里 list 况 是 无 
事实 | ， 在 同一 文件 中 将 memlist_entry 定义 成 list_entry， 所 以 实际 引用 的 是 list. entry): 


48 #define memlist entry list entry 


而 list. entry 的 定义 则 在 include/linux /list.h P: 


135 /六 六 

136 * list entry - get the struct for this entry 

137 * @ptr: the &struct list head pointer. 

138 * type: the type of the struct this is embedded in. 

139 * Gmember: the name of the list struct within the struct. 

140 */ 

141 define list entry (ptr, type, member) X 

142 ((Lype *) ((char *) (ptr)-(unsigned long) (&((type *)0) -^?member))) 


将 前 面 的 188 行 与 此 对 照 ， 就 可 以 看 出 其 中 的 奥秘 : 经 过 C 预 处 理 的 文字 替换 ， 这 一 行 的 内 容 就 
成 为 : 
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page=((struct page*) ({char*) (curr) - (unsigned long) (&((struct page*)0)-> lisi))) ; 


这 里 的 cur 是 “个 page 结构 内 部 的 成 分 list 的 地 址 , 而 我 们 所 需要 的 却 赴 那个 page 结构 本 身 的 地 
bk, FRESE MABE curr 减 去 一 个 位 移 量 ， 即 成 分 list 在 page 内 部 的 位 移 量 ， 才 能 达到 要 求 。 那 么 ， 这 
QUEE BK DME? &((struct page*)0)- >list 就 表示 当 结 构 page 正好 在 地 址 90 上 时 其 成 分 list 的 地 址 ， 
这 就 是 位 移 。 

同样 的 道理 ， 如 果 是 在 page 结构 的 bru AAE, MHAE FORAY member 为 lfu， 一 样 能 算出 宿主 结构 
的 地 址 。 

可 网 ， 这 一 套 操 作 既 普 裔 适用 ， 又 保持 了 较 高 的 效 举 。 但 是 ， 对 于 阅读 代码 的 人 却 有 个 缺点 ， 那 
就 是 光 从 代码 中 个 容易 看 出 一 个 list head 的 箱 主 结构 是 什么 ， 而 以 前 只 要 看 一 下 指针 next 的 类 型 就 知 
道 了 。 





1.5 Linux 内 核 源 代码 中 的 汇编 语言 代码 


任何 一 个 用 高 级 语言 编写 的 操作 系统 ， 其 内 核 源 代码 中 总 有 少 部 分 代码 是 用 汇编 语言 编写 的 。 读 
过 Unix Sys V 源 代 码 的 读者 都 知道 ， 在 其 约 3 万 行 的 核心 代码 中 用 汇编 语言 编写 的 代码 约 2000 行 ， 分 
成 不 到 20 个 扩展 名 为 .s 和 .m 的 文件 ， 其 中 大 部 分 症 关 于 中 新 与 异常 处 理 的 底层 程序 , 还 有 就 是 与 初始 
化 有 关 的 程序 以 及 “: 些 核心 代码 中 调用 的 公用 了 程序 。 

用 汇编 语言 编写 核心 代 公 中 的 部 分 代码 ， 大 体 上 是 出 于 如 下 几 个 方面 的 考虑 : 

© ”操作 系统 内 核 中 的 底层 程序 直接 与 硬件 打交道 ， 需 要 用 到 一 些 专 用 的 指令 ，J 而 这 些 指令 在 C 
语 许 中 并 无 对 应 的 语言 成 分 。 例 如, 在 386 系统 结构 中 ,对 外 设 的 输入 / 输出 指令 如 inb、outb 
等 均 无 对 应 的 C 语言 语句 。 因 此 ， 这 些 底层 的 操作 需要 用 汇编 语言 来 编写 。CPU 中 的 一 些 对 
寄存 器 的 操作 也 是 一 样 ， 例 如 ， 要 设置 一 个 段 寄存 器 时 ， 也 只 好 用 汇编 语言 米 编写 。 

e CPU 中 的 - 些 特 殊 指令 也 没有 对 应 的 C 语 衣 成分， 如 关中 断 ， 开 中 新 等 等 。 此 外 ， 人 在 同一 种 
系统 结构 的 不 同 CPU 芯片 中 ， 特 别 是 新 开发 出 来 的 蕊 片 中 ， 往 往 会 增加 - 些 新 的 指令 ， 例 如 
Pentium. Pentium II 和 Pentium MMX， 都 在 原来 的 基础 上 扩充 了 新 的 指令 ， 对 这 些 指令 的 使 败 
也 得 用 汇编 语言 。 

多 ”内核 中 实现 某 些 操作 的 过 程 、 程 序 段 或 阴 数 ， 在 运行 时 会 非常 频繁 地 被 调用 ， 因 此 其 “时 间 )》 
效率 就 显得 很 重要 。 而 用 沪 编 语言 编写 的 程序 ， 在 算法 和 数据 结构 相同 的 条 件 下 ， 其 效率 通常 
要 比 用 高 级 语言 编写 的 高 。 在 此 类 程序 或 程序 段 中 , 往往 每 一 条 汇编 指令 的 使 用 都 需要 经 过 推 
右 。 系 统 调 用 的 进入 和 返回 就 是 一 个 典型 的 例子 。 系 统 调 用 的 进出 是 非常 频繁 用 到 的 过 程 ， 笠 
秒 钟 可 能 会 用 到 成 千 上 万 次 ， 其 时 间 黎 率 可 谓 举 由 轻重。 再说， 系统 调用 的 进出 过 程 还 党 涉 到 
用 户 空 间 和 系统 空间 之 间 的 来 加 切换， 而 用 于 这 个 目的 的 “ 些 指 令 在 C TART PARAM 
应 的 语言 成 分 ， 所 以 ， 系 统 调用 的 进入 和 返回 显然 必须 用 汇编 语言 来 编写 。 

@ 在 某 些 特殊 的 场合 , 一 段 程序 的 空间 效率 也 会 显得 省 常 重 此 。 操 作 系统 的 引导 程序 就 是 一 个 例 
子 。 系 统 的 引导 程序 通常 一 定 要 能 容纳 在 磁 可 上 的 第 一 个 肩 区 中 。 这 时 候 ， 哇 怕 这 上 段 程序 的 大 
小 多 出 一 个 季节 也 不 行 ， 所 以 就 只 能 以 汇编 语 寺 编写 。 

在 Linux 内 核 的 源 代码 中 ， 以 眷 . 编 语 诈 编 写 的 程序 或 程序 段 ， 有 几 种 不 同 的 形式 。 

第 一 种 是 完全 的 汇编 代码 ， 这 样 的 代 介 采用 .s 作为 文件 名 的 后 级。 事实 P, RR AE "TUERI D: 
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编 代 码 ， 现 代 的 汇编 工具 也 吸收 了 C 语言 预 处 理 的 长 处 ， 也 在 汇编 之 前 加 上 了 一 趟 预 处 理 ， 而 预 处 理 
之 前 的 文件 则 以 .$ 为 后 级 。 此 类 (.S) 文件 也 和 C 程序 一 样 ， 可 以 使 用 丰 nclude、 布 fdef 等 等 成 分 ， 而 
数据 结构 也 -一样 可 以 在 .h 文件 中 加 以 定义 。 

第 二 种 是 嵌入 在 C 程序 中 的 六: 编 语言 片段 。 虽 然 在 ANSI BS C 语言 标准 中 并 没有 关于 汇编 片段 的 
规定 ， 事 实 上 各 种 实际 使 用 的 C 编译 中 部 作 了 这 方 所 的 扩充 ， 而 GNU 的 C 编译 gcc 也 在 这 方面 作 了 
很 强 的 扩充 。 

此 外 ， 内 核 代码 中 也 有 几 个 Intel 格式 的 汇编 语言 程序 ， 是 用 于 系统 引导 的 。 

由 于 本 书 专 注 于 Intel i386 系统 结构 上 的 Linux 内 核 ， 下 面 我 们 从 介绍 GNU Xf 1386 汇编 语言 的 文 
持 。 
对 于 新 接触 Linux 内 核 源 代码 的 读者 ， 哪 怕 他 比较 熟悉 1386 汇编 语言 ， 在 理解 这 两 种 沪 . 编 语言 邮 
程序 或 片段 时 都 会 感到 困难 ， 有 的 其 公会 望而却步 。 其 原因 是 : 在 内 核 “ 纯 ”汇编 代码 中 GNU 采用 了 


使 用 寄存 器 、 以 及 如 何 与 C 程序 中 定义 的 变量 相 结合 的 语言 成 分 、 这 些 成 分 使 得 嵌入 C 程序 中 的 汇编 
语言 片段 实际 上 变 成 了 一 种 介 乎 386 JL 281 C Z8) A RR PIRE e 

所 以 ， 我 们 先 集 中 地 介绍 一 上 在 内 核 中 这 两 种 情况 下 使 用 的 386 汇编 诸 言 ， 以 后 在 具体 的 情景 中 
涉及 具体 的 汇编 语言 代码 时 还 会 加 以 解释 。 


1.5.1 GNU 的 386 汇编 语言 


在 Dos/Windows 领域 中 ，386 汇编 语言 者 采用 由 Intel E X HJi& 8) GES) 格式 ， 这 也 是 几乎 在 所 
有 的 有 关 386 让 - 编 语 言 程序 设计 的 教科 书 或 参考 书 中 所 使 用 的 格式 。 可 是 ,在 Unix 领域 中 ， 采 用 的 却 
是 由 AT&T 定义 的 格式 。 当 初 ， 当 AT&T 将 Unix 移植 到 80386 处 理 器 上 时 ， 根 据 Unix BY A LAY 
惯 和 需要 而 定义 了 这 样 的 格式 。Unix 最 初 是 在 PDP-11 机 器 上 开发 的 ， 先 后 移植 到 VAX 和 68000 系列 
的 处 理 器 上 。 这 些 机 露 的 汇编 语 这 在 风格 上 、 从 而 在 格式 上 与 Intel 的 有 所 不 同 。 而 AT&T 定义 的 386 
汇编 语言 就 比较 接近 那些 汇编 语言 。 后 来 ， 在 Unixware 中 保留 了 这 种 格式 。GNU 主要 是 在 Unix 领域 
内 活动 的 (虽然 GNU Æ “GNU is Not Unix” 的 缩写 )。 为 了 与 先前 的 各 种 Unix 版 本 与 工具 有 尽 可 能 好 
的 兼容 性 ， 由 GNU 开发 的 各 种 系统 工具 自然 地 继承 了 AT&T 的 386 汇编 语言 格式 ， 而 不 采用 Intel 的 
格式 。 
那么 ， 这 两 种 汇编 语言 之 间 的 差距 到 底 有 多 大 昵 ? 其 实 是 大 辣 小 异 。 可 是 有 时 候 小 异 也 是 很 重要 
的 ， 不 加 重视 就 会 造成 困扰 。 具 体 讲 ， 士 要 有 下 面 这 么 一 些 差别 ; 
(1) 在 Intel 格式 中 大 多 使 用 大 写字 和 母 ， 而 在 ATAT 格式 中 都 使 用 小 写字 母 。 
(2 在 AT&T 人 格式 中 ， 寄 存 器 名 要 加 上 “ 免 ” 作 为 前 缀 ， 侧 在 Intel 格式 中 则 不 带 前 绷 。 
(3) 在 AT&T 的 386 汇编 语言 中 ,指令 的 源 操作 数 与 日 标 操作 数 的 顺序 与 在 Intel 的 386 汇编 语言 
中 正好 相反 。 在 Intel 格式 中 是 目标 在 前 , 源 在 后 ; 和 而 在 AT&T 格式 中 则 是 洲 在 前 ， 凡 标 在 后 。 
例如 ， 将 寄存 器 eax 的 内 容 送 入 ebx， 在 Intel 格式 中 为 “MOVE EBX, EAX”, ifj YE AT&T 格 
HPA "move peax, %ebx”。 看 米 ，Intel 格式 的 设计 者 所 想 的 是 “EBX = EAX”, if] AT&T 
格式 的 设计 者 所 想 的 是 “9%peax -> 和 ebx”。 
(4) 在 AT&T 格式 中 ， 访 内 指令 的 操作 数 大 小 (宽度 ) 由 操作 码 名 称 的 最 后 一 个 字母 (也 就 是 吉 
作 码 的 后 级 〉 来 决定 。 睹 作 操 作 码 后 缀 的 宁 母 有 b (表示 8 位 )，w (表示 16 位 ) 和 1 (表示 
32 位 )。 而 在 Intel 格式 中 ， 则 十 在 表示 内 存单 元 的 操作 数 果 面 加 上 “BYTE PTR”, “WORD 
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PTR”, z& “DWORD PTR” 来 表示 。 例 如 ， 将 FOO 所 指 内 存单 元 中 的 字 节 取 入 8 位 的 寄存 
器 AL， 在 两 种 格式 中 不 同 的 表示 如 下 : 
MOV AL, BYTE PTR FOO (Intel 格式 》 
movb FOO, %al (AT&T 格式 ) 
(5 在 AT&T 格式 中 ， 直 接 操作 数 要 加 上 “$” 作 为 前 级， 而 在 Intel 格式 中 则 不 带 前 级 。 所 以 ， 
Intel 格式 中 的 “PUSH 4”, Æ AT&T RAPRA “pushl $4". 
(6) 在 AT&T 格 式 中 ， 绝 对 转移 或 调用 指令 jump/call 的 操作 数 〈 也 即 转移 或 调用 的 目标 地 址 )， 
要 加 上 “*” 作 为 前 缀 (读者 大 概 会 联想 到 C 语言 中 的 指针 吧 )， 而 在 Intel 格式 中 则 不 带 。 
(7) “远程 的 转移 指令 和 子 程序 调用 指令 的 操作 码 名 称 ， 在 AT&T 格式 中 为 “1jmp” 和 “icail”， 而 
在 Intel 格式 中 ， 则 为 “JMP FAR” 和 “CALL FAR”。 当 转移 和 调用 的 目标 为 直接 操作 数 时 ， 
两 种 不 同 的 表示 如 下 : 
CALL FAR SECTION: OFFSET (Intel 格式 ) 
JMP FAR SECTION:OFFSET (Intel 格式 ) 


Icall section, $ offset (AT&T 格式 ) 
limp $section, $ offset (AT&T 格式 ) 
与 之 相应 的 远程 返回 指令 ， 则 为 : 

RET FAR STACK_ADJUST (Intel 格式 ) 
lret $ stack_adjust (AT&T 格式 ) 

(8) 间接 寻 址 的 一 般 格式 ， 两 者 区 别 如 下 : 
SECTION: [BASE+INDEX*SCALE+DISP] (Intel 格式 》 
section: disp (base, index, scale) CAT&T 格式 ) 


注意 在 AT&T 格式 中 隐 含 了 所 进行 的 计算 .例如 ， 当 SECTION 省 略 ，INDEX 和 SCALE 也 省 略 ， 
BASE 为 EBP， 而 DISP 《位 移 ) 为 4 时， 表示 旭 下 : 
[ebp 一 4] (Intel 格式 》 
—4 (%ebp) CAT&T 格式 ) 
在 AT&T 格式 的 括号 中 如 果 只 有 一 项 base， 就 可 以 省 略 逗 号， 否则 不 能 省 略 ， 所 以 《9%ebp) 相当 
十 《9%ebp,，)， 进 一 步 相当 于 〈%ebp，0，0)。 又 如 ， 当 INDEX 为 EAX，SCALE 为 4 (32 位 )，DISP 
为 fpo， 和 而 其 他 均 省 略 ， 则 表示 为 : 
[foo+EAX*4] (Intel 格式 ) 
foo (, %EAX, 4) (AT&T 格式 ) 
这 种 寻 址 方式 常常 用 于 在 数据 结构 数组 中 访问 特定 元 素 内 的 一 个 字段 ，base 为 数组 的 起 始 地 址 ， 
scale 为 每 个 数组 元 素 的 人 小 ，index 为 下 标 。 如 果 数 组 元 素 是 数据 结构 ， 则 disp 为 具体 字段 在 结构 中 
的 位 移 。 


15.2 RAC 代码 中 的 386 汇编 语言 程序 段 
当 需 要 在 C 语言 的 程序 中 棋 入 一 段 汇编 语言 程序 段 时 ， 可 以 使 用 gcc 提供 的 “asm” 语 句 功能 。 例 
ti. ff include/asnvio.h 中 有 这 么 一 行 : 


#define __SLOWDOWN IO __ asm volatile | (*outb %al, $ 0x80”) 
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这 里 ， 暂 且 和 忽略 在 asm 和 volatile 前 后 的 两 个 “__” 学 符 ， 这 也 十 gcc XI C 语言 的 -- 种 扩充 ， 后 
独 我 们 还 要 讲 到 。 先 来 看 括号 里 面 加 上 了 引号 的 汇编 指令 。 这 是 一 条 8 位 输出 指令 ， 如 前 所 述 在 抬 作 
符 上 加 了 后 级 “b” 以 表示 这 是 8 位 的 ， 而 0x80 因为 是 常数 ， 即 所 谓 “ 直 接 操作 数 ” 所 以 要 加 上 前 绥 
" $", (Fes al hI f BUSR "76". ANTE f BUTTE AT&T 格式 与 Intel 格式 的 不 同 ， 这 就 是 一 条 
很 普通 的 汇编 指令 ， 很 容易 理解 。 

在 同一 个 asm 语句 中 也 可 以 插入 多 行 汇编 程序 。 彝 在 同一 个 文件 中 ， 在 不 同 的 条 件 下 ， 
__SLOW_DOWN_IO 又 有 不 同 的 定义 ; 


#define __SLOW DOWN IO __asm volatile ("jmp lf \nl:\tjmp If \n1:) 


ZAARA BMS. AE, 其 插入 了 三 行 汇编 语句 ,，“\n” 就 是 换行 特 ， 而 “YX” 则 表示 TAB 符 。 
所 以 ，gcc 将 之 翻 详 成 下 面 的 格式 而 交 给 gas 去 汇编 ; 


jmp lf 
l: jmp if 


这 里 转移 指令 的 目标 1f Rasika Cf 表示 forward) 找到 第 一 个 标号 为 1 的 那 一 行 。 相 应 地 ， 如 果 
是 1b 就 表示 人 往 后 找 。 这 也 是 从 早期 的 Unix 汇编 代码 中 继承 下 来 的 ， 读 过 Unix 第 6 版 的 读者 大 概 部 还 
能 记得 。 所 以 ， 这 一 小 段 汇编 代码 的 用 意 斌 在 杆 使 CPU 空 做 两 条 转移 指令 而 消耗 掉 一 些 时 间 。 既 然 是 
要 消耗 3 一 些 时 间 ， 而 不 是 要 节省 一 些 时 间 ， 那 么 为 什么 要 用 汽 . 编 语 句 来 实现 ， 市 不 是 在 C 里 面 来 实 
现 昵 ? 原 内 在 于 息 要 对 此 有 比较 确切 的 控制 。 如 盯 用 C 语句 来 消耗 些 时 间 的 话 ， 你 常常 不 能 确切 地 
知道 经 过 编译 以 后 ， 特 判 是 如 果 经 过 优化 的 话 ， 最 后 产生 的 汇编 代码 千 竟 怎样 。 

如 果 读 者 觉得 这 毕竟 还 十 容易 理解 的 话 ， 那 么 下 面 这 一 段 〈 中 上 自 include/asm/atomic.h) 就 困难 多 
T: 


29 static __inline__ void atomic add(int i, atomic t *v) 


30 | 

31 __asm__ | volatile ( 

32 LOCK "addl %1, %0” 

33 : =m” (v->counter) 

34 i (i), "m" (v->counter)) ; 
35  ] 


一 般 而 言 ， 往 C 代码 中 插入 汇编 语言 的 代码 片断 要 比 “纯粹 ”的 汇编 语言 代码 复杂 得 多 ， 因 为 这 
里 有 个 怎样 分 配 使 用 寄存 器 ， 怎 样 与 C 代码 中 的 变量 结合 的 问题 。 为 了 这 个 日 的 ， 必 须 对 所 用 的 ;并 编 
语言 作 更 多 的 扩充 ， 增 加 对 沪 - 编 工 其 的 指导 作用 。 其 结果 是 其 语法 实际 上 变 成 了 既 不 同 于 并 - 编 语言 ， 
也 不 同 于 C 语言 的 和 种 中 间 语 言 。 

下 身 ， 先 介绍 -下 插入 C 代码 中 的 汇编 成 分 的 般 格 式 ， 并 加 以 解释 。 以 后 ， 在 我 们 走 过 各 种 情 
景 时 碰 到 具体 的 代码 时 还 会 加 以 提示 。 

TÉ. C 代 色 中 的 一 个 汇编 语言 代 但 片断 可 以 分 成 四 部 分 ， 以 “: ”号 加 以 分 隔 ， 其 一 般 形 式 为 : 
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指令 部 : 输出 部 : 输入 部 : 损坏 部 


注意 不 要 把 这 些 “: ”号 跟 程 序 标号 中 所 用 的 (如 前 面 的 1: ORB. 

第 一 部 分 就 是 汇编 诸 名 本身 ， 其 格式 与 在 汇编 诸 言 程序 中 使 用 的 基本 相同 ， 估 也 有 区 别 ， 不 同 之 
处 下 面 会 讨 到 。 这 一 部 分 可 以 称 为 “指令 部 ”， 是 必须 有 的 ， 而 其 他 各 部 分 则 可 视 具 体 的 情况 而 省 略 ， 
所 以 在 最 简单 的 情况 下 就 与 常规 的 汇编 诸多 基本 相同 ， 记 前 面 的 岗 个 例子 孝 样 。 

EL As TRS A RAB C 代码 中 上 时， 操作 数 与 C 代码 中 的 变量 如 何 结 合 显然 是 个 问题 。 在 
本 节 井 头 的 两 个 例子 中 ， 汇 编 指 令 都 没有 产 牛 与 C 程序 中 的 变量 结合 的 问题 ， 所 以 比较 简单 。 当 站. 编 
指令 中 的 操作 数 需要 与 C 程序 中 的 某 些 变量 结合 对， 情况 就 复杂 多 了 。 这 古 内 为 ;程序 员 在 编写 欲 入 
的 并 . 编 代 码 时 ， 按 照 程 序 逻 往 的 要 求 很 清楚 应 该 选用 什么 指令 ， 但 是 即 无 法 确切 地 知道 scc 在 嵌入 点 
的 前 后 会 把 哪 “个 寄存 器 分 配 用 于 哪 一 个 变量 ， 以 及 哪 一 个 或 哪 几 个 寄存 器 是 尝 朵 着 的 。 而 用， 光 是 
ABL HARI gec 对 寄存 器 的 分 配 情 况 也 还 是 不 够 ， 还 得 有 个 于 段 把 使 用 寄存 器 的 要 求 告 知 gcc， 反 过 来 
ZHEN TTRI. 2395. WR gcc 的 功能 非常 强 ， 那 么 通过 分 析 始 入 的 汇编 代码 也 应 该 能 够 轨 纳 
出 这 些 柴 求 ， 青 通过 优化 ， 最 后 也 能 达到 目的 。 但 是 ， 即 使 那样 ， 所 引入 的 不 确定 性 也 还 是 个 问题 ， 
更 何况 要 做 A 到 这 样 还 个 容易。 针对 过 个 问题 ，gec RRS 种 折 中 的 办 法 : 程序 员 内 提供 其 体 的 指令 ， 
而 对 寄存 器 的 使 用 则 一 般 只 提供 一 个 “样板 ” 利 一些 约束 条 件 ， 而 把 到 底 如 何 与 变 昌 结合 的 门 题 留 给 
gcc 和 gas 去 处 理 。 

frin OAT, BIN LATA O, WO0 961 等 等 ， 表 水 需要 使 用 寄存 器 的 样板 操作 数 。 可 以 使 用 的 
此 类 操作 数 的 总 数 取决 十 具体 CPU 中 通用 寄存 内 的 数量 。 这 样 ， 指 令 部 中 用 到 了 几 个 不 同 的 这 种 操作 
数 , 就 说 明 有 几 个 变量 需要 与 寄存 器 结合 ， 由 gcc 和 gas 在 编译 和 汇编 时 根据 后 面 的 约束 条 件 自行 必 通 
处 理 。 山 于 这 些 样板 操作 数 也 使 用 “%” 前 级 ， 在 涉及 到 具体 的 寄存 器 时 就 些 在 寄存 器 名 前 面 加 上 岗 
^^ "90" FE, EL RTE 

那么 ， 怎 样 表达 对 变量 结合 的 约束 条 件 呢 ? RRR IL TRAE. RRS FS E LE at 
“输出 部 ”， 用 以 规定 对 得 出 变量 ， 即 日 标 操 作 数 如 何 结合 的 约束 条 件 。 每 个 这 样 的 条 件 称 为 一 个 “ 约 
束 ”(constraint)。 必 要 时 和 输出 部 中 可 以 有 多 个 约束 ， 蕊 相 以 进 号 分 隔 。 每 个 输出 约束 以 “=” 号 开头 ， 
然后 是 “个 字母 表示 对 操作 数 类 型 的 说 明 ， 然 后 是 关于 变量 结合 的 约束 。 例 如 ， 在 上 面 的 例子 小 ， 输 
出 部 为 

: “=m” (v->counter) 

这 里 人 只 有 一 个 约束 ,“=m” 表 示 相 应 的 有 HH 标 操作 数 〈 指 令 部 中 的 %0) 是 个 内 存单 元 v->counter. AL 
是 与 输出 部 中 说 明 的 操作 数 相 结 合 的 寄存 器 或 操作 数 本 身 ， 在 执行 岩 入 的 汇编 代 侍 以 后 均 不 保留 执行 
之 打 的 内 容 ， 这 就 给 gee 提供 了 调度 使 用 这 些 寄存 器 的 依据 。 

输出 部 后 面 是 “输入 部 ”。 输 入 约束 的 格式 与 输出 约束 相似 ， 佣 林带 “=” 号 。 在 前 面 例 了 中 的 输 
入 部 有 两 个 约束 。 第 一 个 为 “ir”(i)， 表 示 指 令 中 的 %1] 可 以 是 PSR SEE AE PI “ERR HERD” GA 
不 immediate), JP EL PRTE OK Bi T. C. 代 但 中 的 变量 名 (这 时 是 调用 参数 站 。 第 二 个 约束 为 
“m2"(v->counter)， 意 义 与 输入 约束 中 相同 。 如 采 个 输入 约束 些 求 使 用 寄存 上 匿 ， 则 在 预 处 理 时 gcc 会 
为 之 分 配 “个 寄存 器 ， 并 站 动 插 入 必要 的 指令 将 损 作 数 即 变量 的 侦 装 入 该 寄存 器 。 与 输入 部 中 说 明 的 
BEES A I A EAS ER ERA, (EDU RAB RW RA RAT ZA. BG, XX 
里 的 %1 TESK EU a as, Prod gcc BAMA 个 寄存 器 ， 首 目 动 插入 一 条 movl 指令 把 参数 站 的 数 
HRA Ra dt, WR Sa RRRA AMAR ET. UR Sa AK EIN, 358 
ARG. YW ARRAS eB, Re OS. ARE A Ee KR 
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的 内 容 。 此 时 gcc 会 自动 在 开头 处 插入 一 条 push 指令 ,将 该 寄存 器 原来 的 内 容 保存 在 堆栈 中 ， 而 在 结 
来 以 后 插入 一 条 popl 指令 ,恢复 寄 存 器 的 内 容 。 

在 有 些 操作 中 ， 除 用 于 输入 操作 数 和 输出 操作 数 的 寄存 器 以 外 ， 还 要 将 若干 个 寄存 器 用 于 计算 或 
操作 的 中 间 结 果 。 这 样 ， 这 些 寄存 器 原 有 的 内 容 就 损坏 了 ， 所 以 要 在 损坏 部 对 操作 的 副 作 几 加 以 说 明 ， 
让 gcc 采取 相应 的 措施 。 不 过 ， 有 时 候 就 自 接 把 这 些 说 明 放 在 输出 部 了 ， 那 也 并 无 个 可 。 

操作 数 的 编写 从 输出 部 的 第 个 约束 (序号 为 0) 开始 ， 顺 序数 下 来 ， 每 个 约束 计数 一 次 。 在 指令 
部 中 引用 这 些 操 作 数 或 分 配 用 于 这 些 操作 数 的 寄存 器 时 ， 就 在 序号 前 面 加 上 一 个 “ 免 ” 号。 在 指令 部 
中 引用 -一 个 操作 数 时 总 是 把 它 当 成 一 个 32 位 的 “长 字 ”， 但 是 对 其 实施 的 操作 ， 则 根据 需要 也 可 以 是 
字 节 操作 或 字 (16 位 ) 操 作 。 对 操作 数 进行 的 字 站 操作 默认 为 对 其 最 低 季 他 的 操作 ， 字 操作 也 是 一 样 。 
不 过 ， 在 一 些 特殊 的 操作 中 ， 对 操作 数 进行 字 节 操作 时 也 允许 明确 指出 是 对 哪 一 个 字 节 操作 ， 此 时 在 
多 与 序号 之 问 捅 入 一 个 “b” 表 示 最 低 宁 节 ， 托 入 个“h” 表 示 次 低 了 市 。 

表示 约束 条 件 的 字母 有 很 多 。 主 要 有 : 


"m^, "v" All “o” 一 一 表示 内 存单 元 ; 

Sp? RN TEA A FE 

Sg" 一 一 表示 寄存 器 eax, ebx, ecx, edx 之 一 ; 

^j" Al “h” 一 一 表示 直接 操作 数 ; 

“E” JI “F” 一 一 ERAM, 

AE 0 Xm IE 

“a”, "p". fe? “d” —— 分 别 表 示 要 求 使 用 寄存 器 eax, ebx, ecd Bk edx; 
^S", "D" 一 一 Sp Al des BR EH af (£48 esi I edi; 

e 一 一 Kart 至 31)。 


此 外 ， 如 果 -个 操作 数 划 求 使 用 与 前 面 蕉 个 约束 中 所 上 时 求 的 是 同一 个 寄存 器 ， 那 就 把 与 那个 约束 
对 应 的 操作 数 编号 放 在 约束 条 件 中 。 在 损坏 部 常常 会 以 “memory” 为 约束 条 件 ， 表 示 操 作 完 成 后 内 存 
中 的 内 容 已 有 改变， 如 果 原 来 某 个 寄存 器 (也 许 在 本 次 操作 中 并 未 用 到 ) 的 内 容 来 自 内 存 ， 则 坝 在 可 能 已 
经 不 一 致 。 

还 要 注意 ， 当 输出 部 为 空 ， 即 没有 输出 约束 时 ， 如 果 有 输入 约束 存在 ， 则 须 保留 分 隅 标记 “: s. 

加 到 上 而 的 例子 ,读者 现在 应 该 可 以 理解 这 段 代 码 的 作用 是 将 参数 工 的 值 加 到 v->counter E. 代码 
中 的 关键 字 LOCK 表示 人 在 执行 addi 指令 时 要 把 系统 的 总 线 锁 住 ， 不 让 别 的 CPU 如果 系统 中 有 不 止 c 
个 CPU 打扰。 恋 者 也 许 要 问 ， 将 两 个 数 相 加 是 很 简单 的 操作 ，C 语言 中 明明 有 相应 的 语言 成 分 ， 例 
旭 “v->counter +=i; ”， 为 什么 要 用 汇编 呢 ? 原因 就 在 于 ， 这 时 此 求 整个 操作 只 由 一 条 指令 完成 ， 并 且 
此 将 心 线 锁 件 ， 以 保证 操作 的 “原子 性 (atomic)” 相 比 之 下 ， 上 述 的 C 诸多 在 编译 之 后 钊 底 有 儿 条 指 
令 是 没有 保证 的 ， 也 无 法 要 求 在 计算 过 程 中 对 总 线 加 锁 。 

AA BER ATL SIS, xx HÀ B include/asm-i386/bitops.h. 


18 #ifdef CONFTG SMP 
19 #define LOCK PREFTX "lock ; ^ 


20 #else 

21 #define LOCK PREFIX ^^ 
22 Hendif 

23 


24 #define ADDR Ck(volatile long *) addr) 
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25 

26 static inline void set bit(int nr, volatile void * addr) 
27 d 

28 | asm — __volatile ( LOCK PREFIX 

29 "btsl %1, %0” 

30 :^-m" (ADDR) 

31 S"Ir" (nr); 

32 ] 


这 里 的 指令 btsl 将 一 个 32 位 操作 数 中 的 某 一 位 设置 成 1。 参 数 nr RIAA. BALE BE WK 
不 感到 困难 ， 也 明白 为 什么 要 用 沪 . 编 语言 的 原因 了 。 
再 来 看 一 个 复杂 -点 的 例子 ， 取 日 include/asm-i386/string.h: 


199 static inline void * __memcpy (void * to, const void * from, size t n) 
200 ( 

201 int d0, dl, d2; 

202 | asm | volatile — ¢ 

203 "rep ; movsl\n\t” 

204 "testb $2, %b4\n\t” 

205 "je if\n\t” 

206 ^movswNin^ 

207 “1:\ttestb $1, %b4\n\t” 

208 “je 2f\n\t~ 

209 “movsb\n” 

210 E 3 

2]1 : "-&c" (dO), "-&D^ (dl), "-&S" (d2) 

212 -707 (n/4), "^q" (n), 71” (Cong) to), "2^ (Cong) from) 
213 : “memory”) ; 

214 return (to); 

215; 4 
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iE VEXDÉÉ memcpy( )。 这 里 的 _memepy( ) 就 是 内 核 由 对 memepyC ) 的 底层 实现 ， 用 来 复制 一 
块 内 存 空间 的 内 容 ， 测 忽略 其 数据 结构 。 这 是 使 用 非常 频繁 的 一 个 阴 数 ， 所 以 其 运行 效率 十 分 重要 。 

先 看 约束 条 件 和 变量 与 寄存 器 的 结合 。 输 出 部 有 三 个 约束 ， 对 应 才 操 作 数 %0 至 %2。 其 中 变量 dO 
为 操作 数 %0， 必 须 放 在 寄存 器 ecx 中 ， 上 原因 等 一 下 就 会 明白 。 同 样 ，d1 即 %1 必须 放 在 寄存 器 edi H: 
d2 即 %2 必须 放 在 寄存 器 esi 中 。 再 看 输入 部 ， 这 里 有 四 个 约束 ， 对 应 于 探 作 数 %3 伞 %6。 其 中 操作 数 
3 与 操作 数 %0 使 用 同一 个 寄存 器 ， 所 以 也 必须 是 寄存 器 ecx; HAUEKIN gee 自动 插入 必要 的 指令 ， 
事先 将 其 设 前 成 m4， 实际 上 是 将 复制 长 度 从 字 节 个 数 n 换算 成 长 字 个 数 m14。 全 十 n 本 喘 ， 则 要 求 gee 
[TERAMO 个 寄存 器 存放 。 操 作 数 %5 与 %6， 即 参数 to 与 fom， 分 别 与 %1 和 %2 使 用 柑 同 的 寄 仔 鼎 ， 
所 以 也 必须 是 寄存 器 edi 和 esi。 

再 看 指令 部 ， 读 者 马上 就 能 看 到 这 里 似乎 只 用 了 %4。 为 什么 郑 么 多 的 操作 数 似乎 都 没有 用 呢 ? i 
完 这 些 指令 就 虹口 了 。 

第 一 条 指令 是 “rep”， 表 示 下 -- 条 指令 movsl 迷 重 复 执行 ， 他 重复 一 这 就 把 寄存 器 ecx 中 的 内 容 减 
1， 直 钊 变 成 0 为止。 所以， 在 这 段 代 码 中 一共 执行 n4 次 。 那 么 ，movsl 又 十 些 什么 呢 ? EM esi 所 指 
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的 地 方 复制 一 个 长 字 到 edi 所 指 的 地 方 ， 并 使 esi Medi 分 别 加 4。 这 样 ， 当 代码 中 的 203 行 执行 完毕 ， 
到 达 204 行 时 ， 所 有 的 长 宁都 山 复 制 好 ， 最 多 只 剩 下 三 个 字 节 了 。 在 这 个 过 程 中 ， 实 际 上 使 用 了 ecx、 
esi 以 及 edi =P AFF ah, ENDO (同时 也 是 %3)、%2( 同 时 也 是 %6》 以 及 %1 (同时 也 是 %5) 三 个 操作 
数 ， 这 些 都 隐 含 在 指令 中 ， 从 字库 上 看 不 出 来 。 同 时 ， 这 也 说 明了 为 什么 这 些 操作 数 必须 存放 在 指定 
的 寄存 器 中 。 

接 者 就 是 处 理 剩 下 的 三 个 字 节 了 .。 先 通过 testb 测试 操作 数 %4, MERKE n 的 最 低 字 节 中 的 bit2， 
如 来 这 一 位 为 1 就 说 明 还 有 至 少 岗 个 字 节 ,所 以 通过 指令 movsw 复制 个 短 字 (esi 和 edi 则 分 别 加 2)， 
否则 就 把 它 跳 过 。 再 通过 tes (注意 它 前 面 起 \t， 表 示 在 预 处 理 后 的 汇编 代码 中 插入 一 个 TAB 字符 ) 
测试 操作 数 %4 的 bitl, 如 果 这 一 位 为 1 就 说 明 还 剩 下 一 个 字 节 , 所 以 通过 指令 movsb 再 复制 一 个 字 节 ， 
否则 就 把 它 跳 过 。 到 达标 号 2 的 时 候 ， 执 行 就 结束 了 。 恋 者 不 妨 自 己 写 一 段 C 代码 来 实现 这 个 通 数 ， 
编 详 以 后 用 objdump 看 它 的 实现 ， 并 与 此 作 一 比较 ， 相 信和 就 能 体会 到 为 什么 这 里 旧 采 用 汇编 语言 。 

作为 读者 的 复习 材料 ， 下 面 是 strnemp( ) 的 代码 ， 不 熟悉 1386 指令 的 读者 可 以 找 一 本 Intel 的 指令 
手册 对 照 者 阅读 。 


127 static inline int strnemp(const char * cs, const char * ct, size_t count) 
128 { 

129 register int res; 

130 int d0, dl, d2; 

131 . asm volatile ( 

132 “1:\tdecl %3\n\t” 

133 "js 2f\n\t” 

134 “lodsb\n\t” 

135 “scasb\n\t” 

136 “jne 3f\n\t” 

137 “testb %%al, %%al \n\t” 

138 “jne lb\n” 

139 “2:\txor] %%eax, %%eax\n\t” 

140 “jmp 4fAn^ 

141 “3:\tsbbl %%eax, Wheax\n\t” 

142 "orb $1, %%al\n” 

143 “4:” 

144 : =a ( res), "-&S^ (d0), “=&D” (d1), "-&c" (d2) 
145 ; Cl" (es),"2" (ct),"3" (count); 
146 return . res; 

147 } 
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2.1 Linux 内 存 管理 的 基本 框架 


在 上 一 章 ， 我 们 介绍 了 i386 CPU， 包 括 Pentium， 在 硬件 层次 上 对 内 存 管理 所 提供 的 支持 。 内 存 
管理 最 终 的 实现 当然 要 山 软 件 完成 。 

我 们 在 前 而 谈 到 过 ，i386 CPU 中 的 页 式 存 管 的 基本 思路 足 : 通过 和 页 面 月 录 和 页 面 表 分 两 个 层次 实 
现 从 线性 地 址 到 物理 地 址 的 映射 。 这 种 映射 模式 在 大 多 数 情况 下 可 以 节省 页 面 表 所 占用 的 空间 。 因 为 
大 多 数 进程 不 会 用 到 整个 虚 存 空间 ， 在 虚 存 空间 中 通常 都 留 有 很 大 的 “空洞 ”采用 两 层 的 方式 ， 只 要 
一 个 目录 项 所 对 应 的 奢 部 分 空间 是 个 空洞 ， 就 可 以 把 该 目录 项 设置 成 “ 空 ”， 从 而 省 下 了 与 之 对 应 的 由 
面 表 (1024 个 页 面 描述 项 )。 当 地 此 的 宽度 为 32 位 时 ， 岗 层 鼎 射 机 制 比较 有 效 也 比较 合理 。 但 是 ， 当 
地 址 的 宽度 大 于 32 位 时 ， 两 层 上 映射 就 显得 不 尽 合 埋 ， 沾 够 有 效 了 。 

Linux 内 核 的 设计 要 考虑 到 在 各 种 不 同 CPU 上 的 实现 ， 还 要 考虑 到 在 64 位 CPU (如 Alpha) 上 的 
实 坝 ， 所 以 不 能 仅仅 针对 1386 结构 来 设计 它 的 映射 机 制 ， 而 要 以 种 假想 的 、 虚 拟 的 CPU 和 MMU( 内 
存 管理 单元 ) 为 基础 ， 设 计 出 :种 通用 的 模 起 ， 再 把 它 分 别 落 实 到 各 种 具体 的 CPU 上 。 因 此 ，Linux 内 
核 的 映射 机 制 设计 成 三 层 ， 在 页 面 上 月 录 和 页 面 表 中 问 增设 了 - 层 “ 中 间 月 录 ”。 在 代码 中 ， 页 面 日 录 称 
X PGD, 中 间 目 录 称 为 PMD, ifi RMA PT. PT 中 的 表 项 则 称 为 PTE, PTE Æ “Page Table Entry” 
的 缩写 。PGD、PMD 和 PT 三 者 均 为 数组 。 相 应 地 ， 在 逻辑 上 也 把 线性 地 址 从 高 位 到 低位 划分 成 4 个 
位 段 ， 各 占 若 干 位 ， 分 别 用 作 在 日 录 PGD 中 的 下 标 、 中 间 月 录 PMD 中 的 下 标 、 页 而 表 中 的 下 标 以 及 
物理 页 面 内 的 位 移 。 这 样 ， 对 线性 地 址 的 映射 就 分 成 如 图 2.1 所 示 的 四 步 。 

具体 -一 点 说 ， 对 于 CPU 发 出 的 线性 地 址 ， 虎 拟 的 Linux 内 存 管理 单元 分 如 下 四 步 完 成 从 线性 地 址 
到 物理 地 址 的 映射 : 

(D 用 线性 地 址 中 最 高 的 那 一 个 位 段 作为 下 标 在 PGD 中 找到 相应 的 表 项 ， 该 表 项 指向 相应 的 中 

la} Ge PMD. 

(2) 用 线性 地 址 中 的 第 二 个 位 段 作 为 下 标 在 此 PMD 中 找到 相应 的 表 项 ， 该 表 项 指向 相应 页 而 表 。 

(3) 用 线性 地 址 中 的 第 三 个 位 段 作 为 下 标 在 页 面 才 中 找到 相应 的 表 项 PTE， 该 表 项 中 存放 的 就 是 

指向 物 球 页 面 的 指针 。 

(4) ”线性 地 址 中 的 最 后 位 段 为 物理 页 出 内 的 相对 位 移 量 ， 将 此 位 移 量 与 日 标 物理 页 面 的 起 始 地 址 
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图 2.1 三 层 地 址 映射 示意 图 


但 起， 这 个 虚拟 的 映射 模型 必须 落实 到 具体 CPU MMU 的 物理 映射 机 制 。 就 以 1386 Kik, CPU 
实际 上 个 是 按 二 层 而 起 按 两 层 的 模型 进行 地 由 映射 的 。 这 就 需 此 将 岷 拟 的 三 层 映射 洲 实 到 具体 的 两 层 
BON, kit HTH EK) PMD 层次 。 另 方面， 从 Pentium Pro 开始 ，Intel 引入 了 物 埋 地 址 扩充 功能 PAE, 
允许 将 地 址 宽度 从 32 位 提高 到 36 位 ， 并 且 在 健 件 上 支持 ORB A. DUE. Th Pentium Pro 及 以 后 
的 CPU 上 ， 只 要 将 CPU 的 内 存 管理 设置 成 PAE 模式 ， 就 能 使 虚 存 的 映射 变 成 二 层 模式 。 

那么 ， 具 体 对 于 i386 结构 的 CPU, Linux 内 核 超 怎样 实现 这 种 映射 机 制 的 呢 ? 首先 让 我 们 来 看 
include/asm-i386/pgtable.h 中 的 一 段 定义 : 


106 dif CONFIG X86 PAE 
107 # include <asm/pgtable-3level. h> 


108 Belse 
109 # include <asm/pgtable-2level. h> 
110 Hendif 


恨 据 在 编译 Linux 内 核 必 前 的 系统 配置 (config) 过 程 中 的 选择 , 编译 的 时 候 会 把 月 录 include/asm 符 
号 连接 到 具体 CPU HRIH K. XF i386 CPU， 该 日 录 被 符号 连接 到 include/asm-i386。 同 时 ， 
佳 配 得 系统 时 还 有 一 个 选择 项 是 关于 PAE 的 ， 如 果 所 几 的 CPU 是 Pentium Pro 或 以 上 时 ， 并 日 决定 采 
用 36 位 地 址 ， 则 在 编译 时 选择 项 CONFIG X86 PAE 为 1， 否 则 为 0。 根 据 此 项 选择 ， 编 译 时 从 
pgtable-3level.h 或 pgtable-2level.h 中 二 者 选 一 , 前 者 用 于 36 位 地 址 的 三 层 映 射 ,而 后 者 则 用 十 32 位 地 
址 的 二 层 喘 射 。 这 里 ， 我 们 将 集中 讨论 32 位 地 址 的 二 层 映射 。 存 型 清 了 32 位 地 址 的 二 层 映射 以 后 ， 
读者 可 以 自行 阅 六 有关 36 位 地 址 的 一 层 映射 的 代码 。 

文件 pgtable-2level.h 中 定义 了 . 层 映 射 中 PGD 和 PMD 的 基本 结构 : 


04 /* 

05 * traditional 1386 two-level paging structure: 
06 */ 

07 

.08 Hdefine PGDIR SHIFT 22 
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09 &define PTRS PER PGD 1024 

10 

1} /* 

12 * the i386 is two-level, so we don't really have any 
13 * PMD directory physically. 

14 */ 

15 #define PMD SHTFT 22 

16 #define PTRS PER PMD 1 

17 

18 &define PTRS PER PTE 1024 


这 里 PGDIR, SHIFT 表示 线 忻 地 址 小 PGD PERI Beda. 文件 中 将 其 定义 为 22, HEE bit22 
(第 234). AF POD 是 线性 地 址 由 最 商 的 位 段 ， 所 以 该 位 段 是 从 第 23 位 到 第 32 位 ， 一 共 是 10 位 。 
在 文件 pgtable.h 中 定义 了 男 一 个 常数 PGDIR, SIZE 为 : 


117  &define PGDIR_STZE (1UL<<PGDIR SHIFT) 


也 就 是 说 ，PGD 小 的 每 一 个 表 项 所 代表 的 空间 (并 不 是 PGD AUS eT) 大 小 是 1X2”。 间 
时 ，pgtable-2levelh 中 又 定义 了 PTRS_PER_PGD， 也 就 是 每 个 PGD 表 中 指针 的 个 数 为 1024。 显 然 ， 
这 是 与 线性 地 址 中 PGD 位 段 的 长 度 (10 位) 相符 的 ， 因 为 2 "=1024。 这 两 个 常数 值 的 定义 完全 是 针对 
i386 CPU 及 其 MMU 的 ,因为 非 PAE 模式 的 1386 MMU 用 线性 地 址 中 的 最 高 10 位 作为 日 下 中 的 下 标 ， 
而 日 录 的 大 小 为 1024. 不 过 ,在 32 位 的 系统 中 每 个 指针 的 大 小 为 4 个 字 节 ,所 以 PGD 表 的 人 小 为 4KB。 

对 PMD 的 定义 就 很 有 意思 了 。PMD_SHIFT 也 定义 为 22， 与 PGD_SHIFT 相同 ， 表 示 PMD 位 段 
的 长 度 为 0， 一 个 PMD 表 项 所 代表 的 空间 与 PGD 均 项 所 代表 的 空间 是 一 样 大 的 。 而 PMD 表 中 指针 的 
个 数 PTRS_PER_PMD HEXA 1, ERGA PMD 表 中 只 有 一 个 表 项 。 辣 样 ， 这 也 是 针对 1386 CPU 
及 其 MMU 而 定义 的 ， 因 为 要 将 Linux 2248 [I RR A SE i386 结构 物理 上 的 一 层 映 射 ， 就 
要 从 线性 地 址 迪 辑 上 的 4 个 虚拟 位 段 中 把 PMD 抽 去 ,使 它 的 长 度 为 0， 所 以 逻 缉 上 的 PMD AI Av) 
就 成 为 1 (2°=1). 

这 样 ， 上 述 的 4 步 映 射 过 程 对 于 内 核 〈 软 件 ) 和 i386 MMU BERK: 

(1) 内 核 为 MMU 设置 好 映射 目录 PGD, MMU 用 线性 地 址 中 最 高 的 那 PEE (10 位 ) 作为 下 
标 在 PGD 路 找到 相应 的 表 项 。 该 表 项 逻辑 上 指 问 “个 中 间 目 水 PMD， 但 是 物理 上 衣 接 指向 
相应 的 页 面 表 ，MMU 并 不 知道 PMD WFE. 

(2) PMD HAO3758 上: 存在， 即 对 内 核 软件 在 酸 念 上 存在 , 但 是 表 中 只 有 ARR, TATA ERY 
就 是 保持 原价 个 变 ， 丙 在 一 转手 却 指向 页 面 表 了 。 

(3) 内 核 为 MMU 设置 好 了 所 有 的 负面 表 , MMU 用 线 忻 地 址 中 的 PT 位 段 作为 下 标 在 相应 负面 开 
中 找到 相应 的 家 项 PTE， 该 表 项 中 存放 的 头 是 指向 物理 员 面 的 指针 <。 

(4) “线性 地 址 中 的 最 后 位 段 为 物理 页 面 内 的 相对 位 移 量 ，MMU 将 此 位 移 量 与 旦 标 物理 页 血 的 起 

台地 址 相 加 便 得 到 相应 的 物 坦 地 址 。 

这 样 ， 逻 辑 上 的 三 层 映 射 对 于 i386 CPU 和 MMU HA~ T CRS, JEH R PMD 这 一 层 跳 

过 了 ， 但 是 软件 的 结构 却 还 保持 着 二 层 映 射 的 框架 。 
具体 的 映射 因 举 间 的 性 质 而 异 ， 但 是 后 面 读 者 将 会 看 到 《〈 除 几 来 模拟 80286 的 VM86 AIh, E 
段 式 映射 基地 址 总 是 0， 所 以 线性 地 址 与 虚拟 地 址 总 是 致 的 。 在 以 后 的 讨论 中 ,我们 常常 对 二 者 不 加 
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区 分 。 

32 位 地 址 意味 着 4G TETE, Linux 内 核 将 这 4G 字 节 的 空间 分 成 两 部 分 。 将 最 岛 的 1G 
字 节 (从 虚 地 址 0xC0000000 全 OxFFFFFFFF), 用 于 内 核 本 上 于, 称 为 “系统 空间 ” 而 将 较 低 的 3G 字 节 (从 
虚 地 址 0x0 至 0xBFFFFFFF)， 用 作 各 个 进程 的 “用 户 容 间 ”。 这 样 ， 理 沦 上 每 个 进程 可 以 使 用 的 用 户 罕 
则 都 是 3G 字 节 。 当 然 ， 实 际 的 空间 大 小 受 刘 物理 存储 器 《包括 内 存 以 及 磁 生 交换 区 或 交换 文件 ) 大 小 
的 限制 。 昌 然 各 个 进程 拥有 其 白 己 的 3G 字 节 用 户 空间 ， 系 统 空 间 却 由 所 有 的 进程 共享。 每 当 一 个 进程 
通过 系统 调用 进入 了 内 核 ， 该 进程 就 在 共享 的 系统 空间 中 和 运行， 不 开 有 其 白 忆 的 独立 空间 。 从 具体 进 
程 的 角度 看 ， 则 每 个 进程 都 拥有 4G 字 节 的 虚 存 空间 ， 较 低 的 3G 字 节 为 自己 的 用 户 空间 ， 最 高 的 1G 
字 节 则 为 与 所 有 进程 以 及 内 核 共享 的 系统 空间 ， 如 图 2.2 n. 


虚拟 系统 空间 LGB 


进程 2 的 
虚拟 
用 户 空 间 


3GB 





图 2. 2 进程 虚 存 空间 示意 图 
虽然 系统 空间 占据 了 每 个 虚 存 空间 中 最 高 的 1G 字 节 ， 在 物理 的 内 存 中 却 总 是 从 最 低 的 地 址 (0) 
开始 。 ALA, 对 于 内 核 来 说 ， 其 地 址 的 映射 是 很 简单 的 线性 映射 ， 0xC0000000 就 是 两 者 之 间 的 位 移 量 。 
因此 ， 在 代码 中 将 此 位 移 称 为 PAGE_OFFSET 而 定义 于 文件 page.h 中 : 


68 /* 

69 * This handles the memory map.. We could make this a config 
70 * option, but too many people screw it up, and too few need 
71 * it. 

72 * 

73 * A... PAGE OFFSET of 0xC0000000 means that the kernel has 
74 * a virtual address space of one gigabyte, which limits the 
75 * amount of physical memory you can use to about 990MB. 

16 * 

TT * If you want more physical memory than this then see the CONFIG HIGHMEMAG 
78 * and CONFIG HIGHMEM64G options in the kernel configuration. 
T9 */ 

80 

81 üdefine __ PAGE OFFSET (0xC0000000) 

82 

113 

114 #define PAGE OFFSET ( (unsigned long) PAGE OFFSET) 

115 define patlx) ( (unsigned long) GO-PAGE OFFSET) 
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116 Hdefine _va(x) ((void *) ((unsigned long) (x) +PAGE_OFFSFT) ) 


也 就 是 说 : 对 于 系统 空间 而 言 ， 给 定 一 个 虚 地 址 x， 其 物 型 地址 是 从 x 中 减 去 PAGE OFFSET; 相 
应 地 ， 给 定 … 个 物理 地 址 x， 其 虚 地 址 是 x+ PAGE OFFSET. 
同时 ，PAGE_OFFSET 也 代表 着 用 户 空间 的 上 限 ， 所 以 常数 TASK SIZE 就 是 通过 它 定义 的 


(processor.h): 


258 /* 
299 水 User space process size: 3GB (default). 
260 */ 


261 #define TASK SIZE (PAGE OFFSET) 


这 是 因为 在 谈论 一 个 用 户 进程 的 大 小 时 ， 并 不 包 拓 此 进程 在 系统 空间 中 共享 的 资源 。 

当然 ，CPU 并 不 是 通过 这 里 所 说 的 计算 方法 进行 地 址 映射 的 ， pa( ) 只 是 为 内 核 代码 中 当知 要 知 
道 与 一 个 虚 地 址 对 应 的 物理 地 址 时 提供 方 使 。 例 如 ， 在 切换 进程 的 时 候 旧 将 寄存 器 CR3 设置 成 指向 新 
进程 的 负面 日 录 PGD， 而 该 目录 的 起 始 地 址 在 内 核 代 码 中 是 虚 地 址 ， 但 CR3 所 需要 的 是 物理 地 址 ， 这 
时 候 就 要 用 到 pa() 了 。 这 行 语 句 仁 文 件 mmu context.h HP: 


43 /* Re-load page tables */ 
44 asm volatile( movi %0, %%cr3”: :"r" ( pa(next pgd))); 


这 是 行 汇编 代码 ， 说 的 是 将 next -> pgd， 即 下 一 个 进程 的 页 面目 录 起 始 地 址 ， 通 过 pal ) 转 换 
成 物理 地 址 〈 存 放 在 某 个 寄存 器 )， 然 后 用 mov 指令 将 其 写 入 寄存 器 CR3。 经 过 这 条 指令 以 后 ，CR3 
就 指向 新 进程 next 的 页 面目 录 表 PGD T. 

前 面 讲 过 ， 每 个 进程 的 局 部 段 描 述 表 LDT 部 作 为 一 个 独立 的 段 而 存在 ， 在 全 局 段 描 述 表 GDT 中 
要 有 … 个 表 项 指向 这 个 段 的 起 始 地 址 ， 并 说 明 该 段 的 长 度 以 及 其 他 一 些 参 数 。 除 此 之 外 ， 每 个 进程 还 
有 :个 TSS 结构 《任务 状态 段 ) 也 是 一 样 。( 关 于 TSS 以 后 述 会 加 以 讨论 ) 所以， 每 个 进程 都 要 在 全 
局 段 描述 表 GDT 中 占据 两 个 表 项 。 那么 ，GDT 的 容量 有 多 大 呢 ? RAS HAE GDT 表 下 标的 位 段 
RSA 13 位 ， 所 以 GDT 中 可 以 有 8192 个 描述 项 。 除 一 些 系 统 的 升 销 (例如 GDT 中 的 第 2 项 和 第 3 
项 分 别 用 于 内 核 的 代码 段 和 数据 段 ， 第 4 项 和 第 5 项 永远 用 杆 当 脐 进 程 的 代码 段 和 数据 段 ， 第 1 项 水 
远 是 0， 等 等 ) 以 外 ， 尚 有 8180 个 丧 项 可 供 使 用 ， 所 以 理论 上 系统 中 最 大 的 进程 数量 是 4090. 


22 地址 映射 的 全 过 程 


Linux 内 核 玉 用 负 式 存储 管理 。 虚 拟 地 址 空间 划分 成 周 定 大 小 的 “页 面 "”， 由 MMU 在 运行 时 将 虑 
拟 地 址 “映射 ”成 (或 者 说 变 换 成 ) 某 个 物 埋 内 存 负 向 中 的 地 址 。 与 段 式 存储 管理 相 比 ， 页 式 存 储 管 
理 有 很 多 好 处 。 首 先 ， 页 面 都 是 固定 大 小 的 ， 便 于 管 埋 。 网 重要 的 是 ， 当 要 将 部 分 物理 空间 的 内 容 
换 出 到 伺 盘 上 的 时 候 ， 在 段 式 存储 管理 中 此 将 整个 段 通常 都 很 人 ) 都 换 出 ， 而 在 页 式 存储 管理 中 则 
是 按 页 进行 ， 效 率 显 然 要 高 得 多 。 页 式 存 储 管理 与 段 式 存储 管理 所 要 求 的 使 件 支持 不 同 ， -种 CPU BE 
然 文 持 页 式 人 存储 管理 ， 就 无 需 再 文 持 段 式 存储 管理 。 但 是 ， 我 们 在 前 面 讲 过 ，i386 的 情况 是 特殊 的 。 
由 于 i386 系列 的 历史 演变 过 程 ， 它 对 页 式 存储 管理 的 支持 是 在 其 段 代 存储 管 理 已 经 存在 了 相当 长 的 时 
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间 以 后 才 发 展 起 来 的 。 所 以 ， 不 管 程序 是 怎样 写 的 ，i386 CPU 一 律 对 程序 中 使 用 的 地 址 先进 行 段 式 映 
射 ， 然 后 才能 进行 页 式 映 射 。 既 然 CPU 的 硬件 结构 是 这 样 ，Linux 内 核 也 只 好 服从 Intel 的 选择 。 这 样 
的 戏 重 映射 其 实 是 毫 无 必要 的 ， 也 使 映射 的 过 程 变 得 不 容易 理解 ， 以 全 有 人 还 得 山 了 Linux XH “FR 
页 式 ” 存 储 管理 技术 这 样 一 种 似是而非 的 结论 。 下 面 读者 将 会 看 到 ，Linux 内 核 所 采取 的 办 法 是 使 段 式 
映射 的 过 程 实际 上 不 起 什么 作用 〔 除 特殊 的 VM86 模式 外 ， 那 是 用 来 模拟 80286 的 )。 也 就 是 说 ,“ 你 
有 政策 ， 我 有 对 策 ”， 落 不 起 呈 衙 着 走 。 本 节 将 通过 一 个 情景 ， 看 看 Linux 内 核 在 i386 CPU 上 运行 时 
地 址 映射 的 全 过 程 。 这 里 变 指 出 ， 这 个 过 程 仅 是 对 i386 人 处理 器 而 言 的 。 对 于 其 他 的 处 理 器 ， 比 如 说 
M68K、Power PC 等 ， 就 根本 不 存在 段 式 映 射 这 … 层 了 了。 反之， 不 管 是 什么 操作 系统 (例如 UNDO, 
只 要 是 在 1386 上 实现 ， 就 必须 全 少 在 形式 上 费 先 经 过 段 式 映射 ， 然 后 才 可 以 实现 其 本 上 身 的 设计 。 
假定 我 们 号 了 这 么 一 个 种 序 ; 





&include <stdio. h> 
greeting( ) 


{ 
printf("Hello, would!\n”) ; 


greeting( ); 


读者 一 定 很 熟悉 。 这 个 程序 与 大 部 分 人 写 的 第 一 个 C 程序 只 有 一 点 不 同 ， 我 们 故意 让 main( ) 调 用 
greeting( ) 玉 显示 或 打印 “Hello, would! ". 

经 过 编译 以 后, 我 们 得 到 可 执行 代码 hello. 先 来 看 看 gec 和 1d (编译 和 连接 ) 执行 后 的 结果 。Linux 
有 一 个 实用 程序 objdump 是 非常 有 用 的 ， 可 以 用 来 肥 汇 编 一 段 二 进 制 代码 。 通 过 命令 : 

% objdump -d hello 
BY AAP EY EAT RTOS AB ARAS AE, EA A BO) RAR N: 


08048568 <greeting>: 

8048568: 55 pushl %ebp 

8048569: 89 eb movl *esp, %ebp 

804856b: 68 04 94 04 08 pushl $0x8049404 

8048570: e8 ff fe ff ff call 8048474 < init*0x84» 


8048575: 83 c4 04 add] $0x4, %esp 

8048578: c9 leave 

8048579: c3 ret 

804857a: 89 f6 movi *esi,9esi 

0804857c <main>: 

804857c: 55 pushl %ebp 

804857d: 89 eb mov}  %esp, %ebp 

804857f: eB e4 ff ff ff call 8048568 <greeting> 
8048584: c9 leave 

8048585: c3 ret 
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8048586 : 90 nop 
8048587: | 90 nop 

从 上 列 结果 可 以 看 到 ，ld 给 greeting( ) ACA HEHE A 0x08048568. TE elf 格式 的 可 执行 代码 中 ，1d 
总 是 从 0x8000000 开始 安排 程序 的 “代码 段 ” 对 每 个 程序 都 是 这 样 。 至 寺 程 序 在 执行 时 在 物理 内 存 中 
的 实际 位 置 则 就 要 由 内 核 在 为 其 建立 内 存 上 映射 时 临时 作出 安排 ， 具 体 地 址 则 取决 十 当时 所 分 配 到 的 物 
EAE HH. 

假定 该 程序 已 经 在 运行 ， 整 个 映射 机 制 都 也 经 建立 好 ， 并 有 昌 CPU 正在 执行 main( ) 中 的 “call 
08048568” 这 条 指令 ， 要 转移 到 虚拟 地 址 0x08048568 去 。 接 下 去 就 请 读者 耐 着 性 子 跟随 我 们 一 步 一 步 
地 走 过 这 个 地 址 的 映射 过 程 。 

首先 是 段 式 映 射 阶段 。 由 十 地 址 0x08048568 是 一 个 程序 的 入 口 ， 罗 重要 的 是 在 执行 的 过 程 中 是 由 
CPU 中 的 “指令 计数 器 ”EIP 所 指向 的 ， 所 以 在 代码 段 中 。 因 此 ，i386 CPU 使 用 代 但 段 寄存 器 CS 的 
当前 值 来 作为 段 式 映射 的 “选择 码 ” 也 就 是 用 它 作 为 在 段 描述 表 中 的 下 标 。 哪 一 个 段 描 述 表 呢 ? 是 全 
局 段 描述 表 GDT 还 是 局 部 段 撒 述 表 LDT? 那 就 要 看 CS 中 的 内 容 了 。 先 重 温 一 下 保护 模式 卜 段 寄存 器 
的 格式 ， 见 图 2.3。 


Requested Privileg Level 





Table Indicator, 0=GDT, 1=LDT 


图 2.3 段 寄 存 器 格式 定义 


也 就 是 说 ， 当 bit2 为 0 时 表示 用 GDT， 为 1 时 表示 用 LDT. Intel 的 设计 意图 是 内 核 用 GDT 而 各 
个 进程 部 用 其 睛 已 的 LDT。 最 低 两 位 RPL 为 所 要 求 的 特权 级 别 ， 共 分 4 级 ，0 为 最 高 。 

现在 ,可 以 来 看 看 CS 的 内 容 了 。 内 核 在 建立 一 个 进程 时 都 要 将 其 段 寄存 器 设置 好 《在 进程 管理 一 - 
章 中 此 讲 到 这 个 问题 )， 有 关 代 码 在 include/asm-i386/processor.h FP: 


408 #definc start thread(regs, new eip, new esp) do 1 \ 
409 asm (“movl %0, %%fs ; movl %0,%%gs”: :"r^" (0); \ 
410 set fs(USER DS) ; \ 

411 regs-?xds = | USER DS; X 

412 regs—->xes = | USER DS; \ 

413 regs-»xss = USER DS; \ 

414 regs->xcs = __USER CS; \ 

415 regs >Deip = new eip; \ 

416 regs >esp = new esp; X 


417 } while (0) 


这 里 regs-»xds 是 段 寄 存 器 DS 的 映 象 ， 余 类 推 。 这 里 已 经 可 以 看 到 个 有 趣 的 事 ， 就 是 除 CS 被 
设置 成 USER_CS 外 , 其 他 所 有 的 段 寄存 器 都 设置 成 USER_DS。 这 里 特别 值得 注意 的 是 堆栈 寄存 器 SS, 
UE WEE USER DS. SLE UG. 虽然 Intel 的 意图 是 将 一 个 进程 的 映 象 分 成 代码 段 、 数 据 段 和 堆栈 段 ， 
Linux 内 核 却 并 不 买 这 个 账 。 在 Linux 内 核 中 堆栈 段 和 数据 段 是 不 分 的 。 
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再 来 看 看 USER_CS 和 USER_DS 到 底 是 什么 。 那 起 在 include/asm-i386/segment.h 中 定义 的 : 


4 #define __KERNEL CS 0x10 
5 #define __KERNEL_DS 0x18 
6 

7 #define _ USER CS 0x23 

8 #define __USER DS Ox2B 


也 就 是 说 ，Linux 内 核 中 内 使 用 四 种 不 同 的 段 寄 存 器 数值 ， 两 种 用 于 内 核 本 身 ， 两 种 用 于 所 有 的 
进程 。 现 在 ， 我 们 将 这 四 种 数值 用 二 进 制 展 开 并 与 段 寄存 器 的 格式 相对 照 : 








Index TI RPL 
. KERNEL CS 0x10 00000000 00 0101/0 0 
| KERNEL DS 0x18 00000000 00 s N ES i Oe 20 
__USER_CS 0x23 0000 0000 00 a) ie [ub | 
__USER_DS 0x2B 00000000 00 TI: ie al d. 3g 

Xp RR tig AB, AAA: 

__KERNEL_ CS: index = 2, TL = 0; RPL = 0 
__KERNEL_ DS: index = 8, TI = 0, RPL = 0 
__USER_ CS: index = 4, TI-& 0, RPL = 3 
__USER_ DS: index = 5, TI = 0, RPL = 3 


首先 ，TI 都 是 0， 也 就 是 说 全 都 使 用 GDT。 这 网 与 Intel 的 设计 意图 不 一 致 了 。 实 也 上 ， 住 Linux 
内 核 中 基本 上 不 使 用 局 部 段 描 述 表 LDT. LOT 只 是 在 VM86 模式 中 运行 wine 以 及 其 他 在 Linux 上 模 
拟 运行 Windows 软件 或 DOS 软件 的 程序 中 才 使 用 。 

再 看 RPL， 只 用 了 0 和 3 两 级 ， 内 核 为 0 级 而 用 户 《〈 进 程 ) 为 3 级 。 

回 到 我 们 的 程序 中 。 我 们 的 程序 显然 不 属于 内 核 ， 押 以 在 进程 的 用 户 空间 中 运行 ， 内 核 在 调度 该 
进程 进入 运行 时 ， 把 CS 设置 成 USER_CS， 即 0x23。 所 以 ，CPU 以 4 为 下 标 ， 从 全 局 段 描 述 表 GDT 
中 找 对 应 的 段 描述 项 。 

初始 的 GDT 内 容 是 在 arch/i386/kernel/head.S 中 定义 的 ， 其 主要 内 容 在 运行 中 并 不 改变 : 


444 /* 

445 * This contains typically 140 quadwords, depending on NR CPUS. 

446 * 

447 * NOTE! Make sure the gdt descriptor in head.S matches this if you 

448 * change anything. 

449 */ 

450 ENTRY (gdt table) 

451 . quad 0x0000000000000000 /* NULL descriptor */ 

452 . quad 0x0000000000000000 /* not used */ 

453 . quad OxOO0cf9a000000f f Tf /* 0x10 kernel 4GB code at 0x00000000 */ 
454 . quad 0x00c [920000007 lf f /* 0x18 kernel 4GB data at 0x00000000 */ 
455 - .quad Ox00cffa000000f fff /* 0x23 user 4GB code at 0x00000000 */ 
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456 . quad OxOO0cff2000000ffff /* Ox2b user 4GB data at 0x00000000 */ 
457 , quad 0x0000000000000000 /* not used */ 
458 , quad 0x0000000000000000  /* not used */ 


GDT 中 的 第 … 项 《下 标 为 0) 是 不 用 的 ， 这 是 为 了 防止 在 加 电 后 段 寄 存 器 木 经 初始 化 就 进入 保护 
模式 并 使 用 GDT， 这 也 是 Intel 的 规定 。 第 二 项 也 不 用 。 从 下 标 2 45 35 4 项 对 应 于 前 而 的 出 种 段 寄存 
器 数值 。 为 便于 对 照 ， 下 和 面 再 次 给 出 段 描述 项 的 格式 ， 同 时 ， 将 4 个 段 描述 需 的 内 容 按 二 进 制 展 开 如 


K_CS: 0000 0000 1100 1111 1001 1010 0000 0000 0000 0000 0000 0000 1111 1111 1111 1111 
K DS: 0000 0000 1100 1111 1001 0010 0000 0000 0000 0000 0000 0000 1111 1111 1111 1111 
K CS: 0000 0000 1100 1111 1111 1010 0000 0000 0000 0000 0000 0000 1111 1111 1111 1111 
K Ds: 0000 0000 1100 1111 1111 0010 0000 0000 0000 0000 0000 0000 1111 1111 1111 1111 


读者 结合 下 页 图 2.4 段 描述 项 的 定义 仔细 对 照 ， 可 以 得 出 如 下 结论 ， 
(1) 四 个 段 描述 项 的 下 列 内 容 都 是 相同 的 。 


€  B0-BIS. BI6-B31 都 是 0 一 一 其 地 址 件 为 0; 
€ L0-LI5. L16- L19 都 是 1 一 一 段 的 上 限 全 是 Oxfffff; 
e GEZEI 一 一 段 长 单位 均 为 4KB; 
e DD 位 都 是 1 一 一 对 四 个 段 的 访问 都 是 32 位 指令 ; 
e PAREI 一 一 四 个 段 都 人 内存 。 
结论 : 每 个 段 都 是 从 0 地 址 开始 的 整个 4GB 虚 存 空间 ， 虚 地 址 到 线性 地 址 的 映射 保持 肉 值 不 变 。 


因此 , 讨论 或 理解 Linux 内 核 的 页 式 映射 时 , 可 以 旦 接 将 线性 地 址 当 作 虚拟 地 址 ， .者 完全 CX. 
(2) 有 区 别 的 地 方 只 是 在 bit40 一 bit 46， 对 应 于 描述 项 中 的 type BLZ S 标志 和 DPL 位 段 。 
€ 对 KERNEL CS: DPL=0， 表 水 0 级 ; S 位 为 1， 表示 代码 段 或 数据 段 ， type 为 1010， 
表示 代码 段 ， 可 读 ， 可 执行 ， 尚 未 受到 访问 。 
€ %{KERNEL_DS: DPL=0, ROR: S 位 为 1， 赤 示 代码 段 或 数据 段 ， type 为 0010, 
表示 数据 段 ， 可 读 ， 可 写 ， 尚 木 受 到 访问 。 
€ 对 USER_CS: DPL-3, XR 328: S 位 为 !， 表 示 代 码 段 或 数据 段 ，type 为 1010， 表 示 
AASB, le, AAT, MASE Al. 
e Xİ USER_DS: 即 卜 标 为 5 时 ，DPL=3， 表 示 3 级; S 位 为 1， 表示 代码 段 或 数据 段 ， type 
为 0010， 表 示 数 据 段 ， 吕 读 ， 吕 写 ， 尚 未 受到 访问 。 

ARI HSER Aya: 一 是 DPL， 内 核 为 最 高 的 0 级 ， 用 户 为 最 低 的 3 级 ; 男 一 个 是 段 的 
类 型 ， 或 为 代码 ， 或 为 数据 。 这 两 项 都 是 CPU 仁 映 射 过 程 中 要 加 以 检查 核对 的 。 如 果 DPL 为 0 级 ， 
而 段 寄存 器 CS 中 的 DPL 为 3 级 ， 那 就 不 允许 了 ， 因 为 那 说 明 CPU 的 当前 运用 级 别 比 想 要 访问 的 区 段 
要 低 。 或者， 如 果 段 描述 项 说 是 数据 段 ， 而 程序 中 道 过 CS 来 访问 ， 那 也 不 允许 。 实 际 上 ， 这 里 所 作 的 
检查 比 对 人 在 页 式 映 射 的 过 程 中 还 要 进行 ， 所 以 既然 用 了 页 式 映 射 ， 这 里 的 检查 比 对 就 想 多 余 的 。 要 不 
是 1386 CPU 中 的 MMU JE Ei FERES Er LONE, 那 就 只 要 个 段 描述 项 就 够 了 。 进 Ob, BEANE 1386 CPU 
中 的 MMU 规定 先 作 段 式 上 映射 ， 然 后 才 可 以 作 页 式 映射 ， 者 就 根本 不 需 此 段 描述 项 各 段 寄存 器 了 。 所 
以 ， 这 里 Linux 内 核 只 不 过 是 装模作样 地 糊弄 1386 CPU， 对 付 且 检查 比 对 而 已 。 

读者 也 许 会 问 : 如 此 党 来 ， 怀 有 滥 意 的 积 序 员 己 不 是 可 以 通过 设置 寄存 器 CS 或 DS， 其 至 过 这 也 
不 用 ， 就 可 以 打破 386 的 段 式 保护 机 制 吗 ? ZEA, (ERB ic, Linux 内 核 之 所 以 这 样 安排 ， 原 因 
在 于 它 采 用 的 是 页 工 存 储 管理 ， 这 申 只 不 过 是 在 对 付 本 米 就 曼 无 必要 却 又 非得 如 此 的 例行公事 而 已 。 
真正 重要 的 是 页 式 映 射 阶段 的 保护 机 人 制 。 
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5655 5251 4847 40 39 32 31 1615 87 0 


B23.B16 基地 址 B15-BO 









可 由 软件 使 用 ，CPU 忽略 该 位 

永远 为 0 

=1， 表 示 对 该 段 的 访问 为 32 位 指令 ，=0， 为 16 位 指令 
， 段 氏 以 AK 字 节 为 单位 =0， 以 字 节 为 单位 


E=0, 数据 段 
ED-0, mbi (AE): ED=1, M FIF CEREO 
W=0, AU EA; Wal, ABA 


C=0， 忽 视 特 权 级 别 :， C= 1， 依照 特权 级 别 


= 0， 表 示 专 川 于 系统 管理 的 系统 段 ， 如 各 类 描述 表 ; 
= 1， 表 示 一 般 的 代码 段 或 数据 段 。 

特权 级 别 

= 1， 该 段 在 内 存 中 


2.4 ”上段 描述 项 定义 


所 以 ，Linux 内 核 设计 的 段 式 映射 机 制 把 地 址 0x08048568 映射 到 了 其 月 身 ， 现 在 作为 线性 地 址 出 
BUT. FEJA T DUXERINT DES. 

与 段 式 映射 过 程 中 所 有 进程 全 者 共用 一 个 GDT 不 一 样 ， 现 在 可 是 动 真 格 的 了 ,每 个 进程 都 有 其 日 
身 的 页 面目 录 PGD， 指 向 这 个 月 录 的 指针 保持 在 每 个 进程 的 mm_struct 数据 结构 中 。 每 当 调 度 一 个 进 
程 进入 运行 的 时 候 , 内 核 都 要 为 即将 运行 的 进程 设置 好 控制 寄存 器 CR3, 和 而 MMU 的 人 硬件 则 总 吓 从 CR3 
中 取得 指向 当前 页 面目 录 的 指针 。 不 过 ，CPU 在 执行 程序 时 使 用 的 是 虚 存 地 址 ， 而 MMU 硬件 在 进行 
映射 时 所 用 的 则 是 物理 地 址 。 这 是 在 inline 函数 switch mm( | 其 代码 见 
include/asm-i386/mmu_context.h。 但 是 我 们 在 此 关心 的 只 是 其 中 最 关键 的 一 


28 static inline void switch mm(struct mm struct *prev, 


38. 
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struct mm struct *next, struct task struct *tsk, unsigned cpu) 


44 asm volatile(’mov! %0, %%cr3”: :^r^ ( pa(next-^pgd))); 


4 © * a 8 «@ 


我 们 以 前 曾 用 这 行 代码 说 明 __pa( ) 的 用 途 , 这 里 将 下 一 个 进程 的 页 面 日 录 PGD 的 物理 地 址 装 入 寄 
存 器 %%cr3， 也 即 CR3。 绍 心 的 读者 可 能 会 问 : 这 样 ， 在 这 一 行 以 前 和 以 后 CR3 的 值 不 一 样 ， 也 就 是 
使 用 不 同 的 页 面 日 录 ， 不 会 使 程序 的 执行 不 能 连续 了 吗 ? 答案 是 ， 这 是 在 内 核 中 。 不 管 什么 进程 ，” 
日 进入 内 核 就 进 了 系统 空间 ， 都 有 相同 的 页 面 上 映射， 所 以 不 会 有 问题 。 

当 我 们 在 程序 中 要 转移 到 地 址 OX08048568 去 的 时 候 ， 进 程 正在 运行 中 ， CR3 早已 设置 好 ， 指 向 
我 们 这 个 进程 的 页 面目 录 了 。 先 将 线性 地 址 0X08048568 按 二 进 制 展 开 : 





0000 1000 0000 0100 1000 0101 0110 1000 


对 照 线性 地 址 的 格式 , 可 见 最 高 10 位 为 二 进 制 的 0000100000, 也 就 是 十 进 制 的 32, 所 以 1386 CPU 
《确切 地 说 是 CPU 中 的 MMU， 下 同 ) 就 以 32 为 下 标 去 页 面目 录 中 找到 其 目录 项 。 这 个 目录 项 中 的 高 
20 位 指向 一 个 页 面 表 。CPU 在 这 20 位 后 边 添上 12 个 0 就 得 到 该 页 面 表 的 指针 。 以 前 我 们 讲 过 ， 符 个 
页 面 表 占 一 个 页 面 ， 所 以 自然 就 是 4K 字 节 边界 对 齐 的 ， 其 起 始 地 址 的 低 12 位 一 定 是 0。 正 因为 如 此 ， 
才 可 以 把 32 位 目录 项 中 的 低 20 位 挪 作 它 用 ， 其 中 的 最 低位 为 P 标志 位 ， 为 1 时 表示 该 页 徊 表 在 内 存 
中 。 

找到 页 面 表 以 后 ，CPU 再 来 看 线性 地 址 中 的 中 间 10 位 。 线 性 地 址 0X08048568 的 第 二 个 10 位 为 
0001001000， 即 十 进 制 的 72。 十 是 CPU 就 以 此 为 下 标 在 已 经 找到 的 页 表 中 找到 相应 的 表 项 。 与 目录 项 
相似 ， 当 页 面 表 项 的 P 标志 位 为 1 时 表示 所 映射 的 页 而 在 内 存 中 。32 位 的 页 面 表 项 中 的 商 20 位 指 癌 
一 个 物理 内 存 页 面 ， 在 后 边 添上 12 个 0 就 得 到 这 物理 内 存 负 和 面 的 起 始 地 址 。 所 不 同 的 是 ， 这 一 次 指向 
的 不 再 是 一 个 中 间 结 构 ， 而 是 映射 的 日 标 页 而 了 。 在 其 起 始 地 址 上 加 上 线性 地 址 中 的 最 低 12 位 ， 就 得 
到 了 最 终 的 物理 内 存 地 上 三。 这 时 这 个 线性 地 址 的 最 低 12 位 为 0x568。 所 以 ， 如 果 日 标 页 面 的 起 始 地 址 
为 0x740000 的 话 〈 有 具体 取决 于 内 核 中 的 动态 分 配 )， 那 么 greeting( ) 入 口 的 物理 地 址 就 是 0x740568， 
greeting ) 的 执行 代码 就 存储 在 这 里 。 

读者 可 能 已 经 注意 到 ， 在 页 面 映射 的 过 程 中 ，i386 CPU 要 访问 内 存 于 次。 第 次 是 页 面目 录 ， 第 
一 次 是 页 面 表 ， 第 三 次 才 是 访问 真正 的 月 标 。 所 以 虚 存 的 高 效 实 现 有 赖 于 高 速 缓存 〈cache) 的 实现 。 
有 了 高 速 缓存 ， 虽 然 在 第 一 次 用 到 具体 的 页 面 上 县 录 和 页 面 表 时 要 到 内 存 中 去 读 取 ， 但 一 旦 装 入 了 高 速 
缓存 以 后 ， 一 般 都 可 以 在 高 速 缓存 中 找到 ， 而 不 需要 再 到 内 存 中 太 读 取 了 。 另 一 方面 ， 这 整个 过 程 是 
由 硬件 实现 的 ， 所 以 速度 很 快 。 

除 常规 的 页 式 映射 之 外 ， 为 了 能 在 Linux 内 核 上 仿真 运行 采用 段 式 存 储 管理 的 Windows 或 DOS 
软件 ， 还 提供 了 两 个 特 弥 的 、 与 段 式 存储 管理 有 关 的 系统 调用 。 





2.2.1 modify ldt(int func, void *ptr , unsigned long bytecount) 


这 个 系统 调用 可 以 用 来 改变 当前 进程 的 局 部 段 描 述 表 。 在 日 由 软件 基金 会 FSF 下 面 ， 除 Linux 以 
外 还 有 许多 个 项 目 在 进行 。 其 中 有 一 个 山 “WINE”, 34 EX F1 “Windows Emulation”, 月 的 是 在 Linux 
, 39. 
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上 仿真 运行 Windows 的 软件 。 多 年 来 ,有 些 Windows 软件 已 经 广泛 地 为 人 们 所 接受 和 熟悉 (如 MS Word 
等 )， 和 而 在 Linux 上 没有 机 同 的 软件 往往 成 了 许多 人 不 愿意 转向 Linux 的 原因 。 所 以 ， 在 Linux 上 建立 
一 个 环境 ， 使 得 用 户 可 以 在 上 面 运行 Windows 的 软件 ， 就 成 了 一 个 开拓 市 场 的 举措 。 而 系统 调用 
modify. ldt( ) 就 是 因 开发 WINE 的 需要 而 设置 的 。 当 func 参数 的 值 为 0 时 , AAR In AS ERE S E 
述 表 的 实际 大 小 ， 而 表 的 内 容 就 在 用 户 通 过 ptr 提供 的 缓冲 区 中 。 当 func 参数 的 值 为 1 时 ，ptr 应 指 问 
个 结构 modify ldt idt s. Mi bytecount 则 为 sizeof(struct modify_ldt_ldt_s)。 该 数据 结构 的 定义 见于 


include/asm-i386/ldt.h: 


15 struct modify ldt idt s { 


16 unsigned int entry number; 

17 unsigned long base addr; 

18 unsigned int limit; 

19 unsigned int seg 32bit:1; 

20 unsigned int contents:2; 

21 unsigned int read exec only:l; 
22 unsigned int  iimit in pages:l; 
23 unsigned int seg not present:l; 
24 unsigned int useable:1; 

25 F 


其 中 entry. number 是 想 要 改变 的 表 项 的 序号 ， 即 下 标 。 而 结构 中 其 余 的 成 分 则 给 出 要 设置 到 各 个 
位 段 中 去 的 值 。 

读者 可 能 会 要 问 : 这 样 岂 不 是 在 内 存 管理 机 制 上 控 了 个 润 ? 既然 个 进程 可 以 改变 它 的 局 部 段 描 
述 表 ， 它 岂 不 就 可 设法 侵犯 到 其 他 进程 或 内 核 的 空间 中 去 ? 这 要 从 两 方面 来 看 。 一 方面 它 确实 是 在 内 
存 管 理 机 制 上 开 了 一 个 小 小 的 缺口 ， 但 男 方面 它 的 缘 后 仍然 是 Linux 内 核 的 页 式 存 储 管理 ， 内 要 不 
让 用 户 进 程 掌握 修改 页 而 日 录 和 页 和 面 表 的 手段 ， 系 统 就 还 是 安全 的 。 


2.2.2 vm86(struct vm86 struct *info) 


与 modify_ldt( ) 相 类 似 , 还 有 一 个 系统 调用 vm86( ), 用 来 在 linux 上 模拟 运行 DOS 软件 。i386 CPU 
专门 提供 了 一 种 寻 址 方式 VM86， 用 来 在 保护 模式 下 模拟 运行 实 址 模式 Creal-mode) 的 软件 。 甚 目的 
是 为 采用 保护 模式 的 系统 (如 Windows, OS/2 等 ) 提供 与 实 模式 软件 〈 常 党 是 DOS 软件 ) 的 兼容 性 。 
事 至 如 今 ， 需 要 加 以 模拟 运行 DOS 软件 已 经 很 少 了 ， 或 者 干 瞻 已 经 绝迹 了 。 所 以 本 书 企 80386 的 导 址 
方式 节 中 路 去 了 VM86 模式 的 内 容 ， 有 兴趣 的 读者 可 以 参照 Intel 的 技术 资料 ， 目 行 阅 庶 内 核 中 有 关 
的 源 代 码 ， 主 槛 有 include/asm-i386/vm86.h 和 arch/i386/kemel/vm86.c. 

显然 ， 这 两 个 系统 调用 以 及 由 此 实现 的 功能 实际 土 并 不 属于 Linux. 内 核 本 喘 的 存储 管理 框架 ， 而 
是 为 了 与 Windows 软件 和 DOS 软件 兼容 而 采取 的 权宜 之 计 。 


2.3” 几 个 重要 的 数据 结构 和 声 数 


从 硬件 的 角度 来 说 ，Linux WRR RENIER A UR H PGD, HHK PT 以 及 全 局 段 描述 表 
GDT 和 和 局 部 段 描 述 表 LDT， 放 正确 地 设置 有 关 的 寄存 器 ， 就 完成 了 内 在 管理 机 制 中 地 址 映射 部 分 的 准 
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备 工 作 。 虽 然 最 终 的 日 的 是 地 址 映射 ， 但 是 实际 上 内 核 所 需要 做 的 管理 工作 却 要 复杂 得 多 。 华 与 内 存 
管理 有 关 的 内 核 代码 中 ， 有 几 个 数据 结构 是 很 重要 的 ， 这 些 数 据 结构 及 其 使 用 构成 了 代码 中 内 人 存 管理 
的 基本 框架 。 

和 页面 目录 PGD, (H Hak PMD 和 页 面 表 PT 分 别 是 出 表 项 pgd_t、pmd_t 以 及 pte. t 构成 的 数组 ， 
而 这 些 表 项 又 都 是 数据 结构 ， 定 义 二 include/asm-i386/page.h 中 : 


36 /* 
37 * These are used to make use of C type-checking... 
38 */ 


39 #if CONFIG X86 PAE 

40 typedef struct { unsigned long pte low, pte high; } pte t; 
4l typedef struct { unsigned long long pmd; ) pmd t; 

42 typedef struct { unsigned long long pgd; ) ped t; 

43 #define pte val(x) (GO.pte low | ((unsigned long long) (x). pte high << 32)) 
44 Helse 

45 typedef struct { unsigned long pte low; ] pte t; 

46 typedef struct { unsigned long pmd; } pmd t; 

47 typedef struct { unsigned long pgd; } pgd t; 

48 define pte val (x) ((x). pte_low) 

49 endi f 

50 Hdefine PTE MASK PAGE MASK 


可 见 ， 当 采用 32 位 地 址 时 ，pgd_t、pmd_t 和 pte_t 实际 上 就 是 长 整数 ， 而 当 采 用 36 位 地 址 时 则 是 
long long 整数 。 之 所 以 不 直接 定义 成 长 整数 的 原因 在 于 这 样 可 以 让 gee 在 编译 时 如 以 更 严格 的 类 型 检 
查 。 同 时 ， 代 码 中 又 定义 了 几 个 简单 的 函数 来 访问 这 些 结构 的 成 分 ， 如 pte_val( )、pgd_val( ) 等 (难怪 
有 人 说 Linux 内 核 的 代码 吸收 了 而 向 对 象 的 程序 设计 手法 )。 但 是 ， 如 我 们 以 前 说 过 的 那样 ， 表 项 PTE 
作为 指针 实际 上 只 需要 它 的 高 20 位 。 同 时 ， 所 有 的 物理 页 面 帮 是 跟 AK 字 节 的 边界 对 齐 的 ， 因 而 物理 
页 面 起 始 地 址 的 高 20 位 又 可 以 看 作 是 物理 抽 面 的 序 和 与。 所 以 ，pte_t 中 的 低 12 位 用 于 页 面 的 状态 信息 
和 访问 权限 。 在 内 核 代 码 中 并 没有 在 pte t 等 结构 中 定义 有 关 的 位 段 ， 而 是 在 page.h 中 另行 定义 了 一 个 
用 米 说 明 页 而 保护 的 结构 pgprot. t: 


52 typedef struct { unsigned long pgprot: } pgprot t; 


参数 pgprof 的 值 与 386 MMU 的 页 面 表 项 的 低 12 位 相对 应 , 其 中 9 位 是 标志 位 , RON R 
的 当前 状态 和 访问 权限 ( 详 见 第 1 章 )。 内 核 代 码 中 作 了 相应 的 定义 (include/asm-i386/pgtable.h): 


148 Hdefine PAGE PRESENT 0x001 
149 #define PAGE RW 0x002 
150 #define PAGE USER 0x004 
151 #define _PAGE_PWT 0x008 
152 #define PAGE PCD 0x010 
153 &define PAGE ACCESSED 0x020 
154 #define PAGE DIRTY 0x040 
155 define PAGE PSE 0x080 /* 4 MB (or 2MB) page, 


Pentium+, if present.. */ 
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156 #define PAGE GLOBAL 0x100 /* Global TLB entry PPro* */ 
157 
158 &define PAGE PROTNONE 0x080 /* If not present */ 


注意 这 里 的 _PAGE_PROTNONE 对 应 于 页 面 表 项 中 的 bit7, Æ Intel 的 手册 中 说 这 位 保留 不 用 ， 
所 以 对 MMU 不 起 作用 。 

在 实际 使 用 中 ，pgprot 的 数值 总 是 小 丁 0x1000， 而 pte 中 的 指针 部 分 则 总 是 大 于 0x1000， 将 二 者 
合 在 一 起 就 得 到 实际 用 于 页 而 表 中 的 表 项 。 有 具体 的 计算 是 由 pgtable.h 中 定义 的 宏 操 作 mk pte 完成 的 : 


61 #define | mk pte(page_nr, pgprot) ^ 
__pte(((page_nr) << PAGE SIIIFT) | pgprot val (pgprot)) 


这 里 将 页 面 序号 左 移 12 位 ， 再 与 页 面 的 控制 /状况 位 段 相 或 ， 就 得 到 了 表 项 的 什 。 这 里 引用 的 两 
个 宏 操 作 均 定义 于 include/asm-i386/page.h H: 


56 #define pgprot_val (x) ((x). pgprot) 
58  #define __pte(x) ((pte t) { (x) } ) 


内 核 中 有 个 全 局 量 mem_map， 是 一 个 指针 ， 指 向 一 个 page 数据 结构 的 数组 〈 下 面 会 讨论 page 结 
J), + page 数据 结构 代表 着 一 个 物理 页 面 ， 整 个 数组 就 代表 着 系统 中 的 全 部 物理 页 面 。 因 此 ， 页 
面 表 项 的 高 20 位 对 十 软件 和 MMU 硬件 有 着 不 同 的 意义 。 对 于 软件 ， 这 是 一 个 物理 页 所 的 序 写 ， 将 这 
个 序号 用 作 下 标 就 可 以 从 mem_map 找到 代表 这 个 物理 页 面 的 page 数据 结构 。 对 于 便 件 ， 则 在 低位 
补 上 12 个 0 后 ) 就 是 物理 页 面 的 起 始 地 址 。 

还 有 一 个 常用 的 宏 操作 set_pte( )， 用 来 把 一 个 表 项 的 值 设 首 到 个 页 面 表 项 中 ， 这 个 宏 操 作 定 义 
于 include/asm-i386/pgtable-2level.h 中 : 


42 Hdefine set pte(pteptr, pteval) (*(pteptr) = pteval) 


在 映射 的 过 程 中 ，MMU 首先 检查 的 是 P 标志 位 , 就 是 上 面 的 _PAGE_PRESENT， 它 指示 着 所 映射 
的 页 面 是 否 企 内 存 中 。 只 有 企 了 标志 位 为 1 的 时 候 MMU 才 会 完成 映射 的 全 过 程 ， 和 否则 就 会 因 不 能 完 
成 映射 而 产生 - 次 缺 页 异常 ， 此 时 去 项 中 的 其 他 内 容 对 MMU 就 没有 任何 意义 了 。 除 MMU 硬件 根据 
页 面 表 项 的 肉 容 进行 负面 映射 外 ， 软 件 也 可 以 设置 或 检测 页 面 表 项 的 内 容 ， 上 面 的 set_pte( )9L IE HK 
设置 页 面 表 项 。 内 核 中 还 为 检测 和 页面 表 项 的 内 容 定义 了 一 些 工具 性 的 北 数 或 安 操作 ， 其 中 最 重要 的 有 : 


60 #define pte_none (x) (! (x). pte_low) 
248 #define pte present(x) ((x). pte_low & ( PAGE PRESENT | PAGE PROTNONE) ) 


PRES, vigne O 表示 尚未 为 这 个 表 需 《所 代表 的 虚 存 页 面 ) 建立 映射， 所 以 还 是 空白 ; 
而 如 果 负 向 表 项 不 为 0, 但 P 标 志 位 为 0, 则 表示 映射 已 经 建立 , 但 是 所 映射 的 物理 页 面 不 在 内 存 中 (已 
经 换 出 到 交换 设备 上 ， 详 见 后 面 的 页 面 交 换 )。 
269 static inline int pte_dirty(pte_t pte) M 
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( return (pte). pte low & PAGE DIRTY; } 
270 static inline int pte_young(pte t pte) \ 
return (pte). pte low & PAGE ACCESSED; } 


271 static inline int pte write(pte t pte) \ 
return (pie). pte low & PAGE RW; } 





当然 ， 这 些 标志 位 只 有 在 P 标志 位 为 LNA AX. 

如 前 所 述 ， 当 页 面 表 项 的 P 标志 位 为 1 时 ， 其 高 20 位 为 相应 物理 页 面 起 始 地 址 的 高 20 位 ， 由 于 
物理 页 和 面 的 起 始 地 址 必然 是 与 页 面 边 界 对 齐 的 ， 所 以 低 12 位 一 定 是 0。 如果 把 整个 物理 内 人 存 看 成 “个 
HERE AA”, MARE 20 fe CAM 12 位 以 后 ) 就 是 数组 的 下 标 ， 也 就 是 物理 页 面 的 序号 。 相 
应 地 ， 用 这 个 下 标 ， 就 可 以 在 上 述 的 page 结构 数组 中 找到 代表 目标 物理 负面 的 数据 结构 。 代 僻 中 为 此 
也 定义 了 一 个 宏 操 作 Cinclude/asm-i386/pgtable.h ): 


59 Hdefine pte page(x) \ 
(mem map*((unsigned long) (((x). pte_low >> PAGE SHIFT)))) 


由 于 mem map 是 page 结构 指针 , 操作 的 结果 也 是 个 page 结构 指针 , mem_map+x 47 &mem_map[x] 
是 一 样 的 。 在 内 核 的 代码 中 ， 还 常常 需要 根据 虚 存 地 址 找到 相应 物理 页 面 的 page 数据 结构 ， 所 以 还 为 
此 也 定义 了 一 个 宏 操 作 (include/asm-i386/page.h): 


117 Hdefine virt to page(kaddr) (mem map + (__pa(kaddr) >> PAGE SHIFT)) 


代表 物理 页 面 的 page 数据 结构 是 在 文件 include/linux/mm.h 中 定义 的 : 


126 /* 
127 * Try to keep the most commonly accessed fields in single cache lines 
128 * here (16 bytes or greater). This ordering should be particularly 
129 * beneficial on 32-bit processors. 
130 * 
131 * The first line is data used in page cache lookup, the second line 
132 * is used for linear searches (eg. clock algorithm scans). 
133 */ 
134 typedef struct page { 
135 struct list head list; 
136 struct address space *mapping; 
137 unsigned long index; 
138 struct page *next hash; 
139 atomic t count; 
140 unsigned long flags; /* atomic flags, 
some possibly updated asynchronously */ 
141 struct list head lru; 
142 unsigned long age; 
143 wait queue head t wait; 
144 struct page **pprev_hash; 
145 struct buffer head * buffers; 
146 void *virtual; /* non-NULL if kmapped */ 
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147 struct zone struct *zone; 
148 ) mem map t; 


内 核 中 用 米 表 示 这 个 数据 结构 的 变量 名 常常 是 page 或 map. 

当 页 面 的 内 容 来 白 一 个 文件 时 ，index 代表 着 该 页 面 在 文件 中 的 序号 ; 当 页面 的 内 容 被 换 出 到 交换 
设备 上 、 但 还 保留 着 内 容 作 为 缓冲 时 , 则 index 指明 了 页 面 的 去 向 。 结构 中 各 个 成 分 的 次 序 是 有 讲究 的 ， 
日 的 是 尽量 使 得 联系 紧密 的 若干 成 分 在 执行 时 被 装填 入 高 速 缓存 的 同一 缓冲 线 〈16 个 字 节 ) 中 。 

系统 中 的 每 一 个 物理 页 而 都 有 一 个 page 结构 〈 或 mem_map_t)。 系 统 在 初始 化 时 根据 物理 内 人 存 的 
大 小 建立 起 一 个 page 结构 数组 mem_map， 作 为 物理 页 面 的 “仓库 ”， 里 而 的 每 个 page 数据 结构 都 代 
表 着 系统 中 的 一 个 物理 页 面 。 每 个 物理 页 面 的 page 结构 在 这 个 数组 里 的 下 标 就 是 该 物理 页 面 的 序号 。 
“仓库 ”里 的 物理 页 面 划 分 成 ZONE_DMA 和 ZONE NORMAL 两 个 管理 |x 〈 根 据 系 统 配置 ， 还 可能 
有 有 第 三 个 管理 区 ZONE_HIGHMEM， 用 于 物理 地 址 超过 1GB 的 存储 空间 )。 

管理 区 ZONE DMA 里 的 页 面 是 专 供 DMA 使 用 的 。 为 什么 供 DMA 使 用 的 页 面 要 单独 加 以 管理 
Ne? 首先 ，DMA 使 用 的 页 面 是 做 盘 VO 所 必需 的 ， 如 果 把 仓库 中 所 有 的 物理 页 面 都 分 配 光 了 ， 那 就 无 
法 进行 页 面 与 盘 区 的 交换 了 。 此 外 ， 还 有 些 特殊 的 原因 。 在 i386 CPU 中 ， 页 式 存 储 管理 的 硬件 支持 是 
在 CPU 内 部 实现 的 , 而 不 像 男 有 些 CPU 那样 由 一 个 单独 的 MMU 提供 , 所 以 DMA AA MMU 提供 
的 地 址 映射 。 这 样 ， 外 部 设备 就 要 直接 提供 访问 物理 页 面 的 地 址 ， 可 是 有 些 外 设 〈 特 别 是 插 在 ISA 总 
线 上 的 外 设 接口 卡 ) 在 这 方面 往往 有 些 限 制 ， 要 求 用 于 DMA 的 物理 地 址 不 能 过 高 。 另 一 方面 ， 正 因 
为 DMA 不 经 过 MMU 提供 的 地 址 映射 ， 当 DMA 所 需 的 缓冲 区 超过 一 个 物理 页 和 面 的 大 小 时 ,就 要 求 两 
个 页 面 在 物理 上 连续 ， 因 为 此 时 DMA 控制 器 不 能 依靠 在 CPU 内 部 的 MMU 将 连续 的 虚 存 页 面 映射 到 
物理 上 不 连续 的 页 面 。 所 以 ， 用 十 DMA 的 物理 负面 是 要 单独 加 以 管理 的 。 

每 个 管理 区 都 有 -一 个 数据 结构 ， 即 zone struct 数据 结构 。 人 在 zone_struct 数据 结构 中 有 一 组 “空闲 
区 间 ”(free_area_t) 队列 。 为 什么 是 “一 组 ”队列 ， 而 不 是 “ e" SINE? 这 也 是 因为 常常 需要 成 
“ 抉 ” 地 分 配 在 物理 空间 内 连续 的 多 个 页 面 ， 所 以 要 按 块 的 大 小 分 别 加 以 管理 。 因 此 ， 在 管理 区 数据 
结构 中 既 要 有 一 个 队列 来 保持 些 离 散 (连续 长 度 为 1) 的 物理 页 面 , 还 要 有 -一 个 队列 米 保 持 一 些 连续 
长 度 为 2 的 页 面 块 以 及 连续 长 度 为 4、8、16、…、 直 至 2MAx-ORPER 的 页 面 块 。 常 数 MAX ORDER 定 
义 为 10， 也 就 是 说 最 大 的 连续 页 面 块 可 以 达到 2 "=1024 个 页 面 ， 即 AM 字 节 。 这 两 个 数据 结构 以 及 几 
个 常数 都 是 在 文件 include/linux/mmzone.h 中 定义 的 : 


11 /六 

12 * Free memory management - zoned buddy allocator. 
13 */ 

14 

15 define MAX ORDER 10 

16 

17 typedef struct free area struct { 
18 struct list head free list; 
19 unsigned int *map; 

20 } free area t; 

21 

22 struct pglist data; 

23 


24 typedef struct zone struct | 
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25 /* 

26 * Commonly accessed fields: 

21 */ 

28 spinlock t lock; 

29 unsigned long offset; 

30 unsigned long free pages; 

31 unsigned long inactive clean pages; 
32 unsigned long inactive dirty pages; 
33 unsigned long pages min, pages_low, pages_high; 
34 

35 /* 

36 * free areas of different sizes 

37 */ 

38 struct list head inactive clean list; 
39 frec_area_t free area[MAX ORDER]: 
40 

Al /* 

12 * rarely used fields: 

43 */ 

44 char *name ; 

45 unsigned long size; 

46 /* 

47 * Discontig memory support fields. 

48 */ 

49 struct pglist data *zone pgdat; 

50 unsigned long zone start paddr; 

ol unsigned long zone start mapnr; 

02 struct page *zone mem map; 

53 } zone t; 

54 


00 &define ZONE_DMA 

o6 #define ZONE, NORMAL. 
oy #define ZONE_HIGHMEM 
og define MAX NR ZONES 


Ww P5 — © 


管理 区 结构 中 的 offset KIZA X XE mem. map 中 的 起 始 页 面 号 。 一 -日 建 六 起 了 管理 区 ， 得 个 物理 
“页面 合 水 久 地 属 丁 某 :个 管理 区 ， 具 体 取决 于 页 面 的 起 始 地 址 ， 就 好 像 ，' 幢 建筑 物 属于 哪 一 个 派出 所 
管 连 取 决 丁 其 地 址 FÉ. PIX free, area, struct 结构 中 用 来 维持 双 问 链 队 列 的 结构 list head 46 个 通 
用 的 数据 结构 ，linux 内 核 中 需要 使 用 双 癌 链 队 列 的 地 方 都 使 用 这 种 数据 结构 。 结 构 很 简单 ， 就 是 prev 
和 next 两 个 指针 。 回 到 上 面 的 page 结构 , 其 中 的 第 一 个 成 分 就 是 个 list head 结构 , WEE WIM IN page 
结构 正 是 通过 它 进入 free. area struct. 结 梅 中 的 双向 链 队 列 的 。 在 “物理 页 面 的 分 配 ” - 节 中 ， 我 们 将 
讲述 内 核 怎样 从 它 的 仓库 中 分 配 “ 抉 物 理 罕 间 ， 即 若 十 连续 的 物 埋 页 面 。 

TARR SLAM, BMRA TI, CPU 访问 这 个 空间 中 的 任何 一 个 地 址 所 
党 的 时 间 都 相同 ， 所 以 称 为 “ 均 质 存储 结构 ”(Uniform Memory Architecture), 简称 UMA. 可是， 人 在- - 
些 新 的 系统 结构 中 ， 特 别 是 在 多 CPU 结构 的 系统 中 ， 物 埋 存 储 字 间 在 这 方 币 的 一 化 性 却 成 了 问题 。 试 
想 有 这 人 么 -一 种 系统 结构 : 
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© 系统 的 中 心 是 一 条 总 线 ， 例 如 PCI 总 线 。 

e fit CPU 模块 连接 在 系统 总 线 上 ， 每 个 CPU 模块 都 有 本 地 的 物理 内 存 ， 但 是 也 可 以 通过 

系统 总 线 访 问 其 他 CPU 模块 上 的 内 存 。 

e 系统 心 线 上 还 连接 着 一 个 公用 的 存储 模 央 ， 所 有 的 CPU 模块 都 可 以 道 过 系统 总 线 来 访问 它 。 

e ”所 有 这 些 物理 内 存 的 地 址 互相 连续 而 形成 一 个 连续 的 物理 地 址 空间 。 

显然 ， 就 某 个 特定 的 CPU 而 言 ， 访 问 其 本 地 的 存储 器 是 速度 最 快 的 ， 而 穿 过 系统 总 线 访问 公用 存 
储 模块 或 其 他 CPU 模块 上 的 存储 器 就 比较 慢 , 而 且 还 面临 因 可 能 的 竞争 而 引起 的 不 确定 性 。 也 就 是 说 ， 
在 这 样 的 系统 中 ， 其 物理 存储 空间 虽然 地 址 连续 ,“ 质 地” 却 不 - 致 ， 所 以 称 为 “ 非 均 质 存 储 结构 ” 
(Non-Uniform Memory Architecture), 简称 NUMA. 在 NUMA 结构 的 系统 中 , 分 配 连续 的 若干 物理 页 面 
时 一 般 都 此 求 分 配 在 质地 相同 的 区 间 ( 称 为 node， 节 “节点 ”)。 举 例 来 说 ， 要 是 CPU 模块 1 要 求 分 配 
4 个 物理 页 面 ， 可 是 由 于 本 模块 上 的 空间 已 经 不 够 ， 所 以前 3 个 页 面 分 配 在 本 模块 上 , 而 最 后 :个 页 面 
却 分 配 到 了 CPU 模块 2 上 ， 那 显然 是 不 合适 的 。 在 这 样 的 情况 下 ， 将 4 个 丰 面 都 分 配 在 公用 模块 上 显 
然 要 好 得 多 。 

事实 上 ， 严 格 意义 上 的 UMA 结构 几乎 是 不 存在 的 。 就 拿 配 置 最 简单 的 单 CPU 的 PC 来 说 ， 其 物 
理 存 储 空间 就 包括 了 RAM、 ROM (用 于 BIOS), 还 有 图 形 卡 上 的 静态 RAM. 但 是 在 UMA 结构 中 ， 
除 “ 主 存 ”RAM 以 外 的 存储 器 部 很 小 ， 所 以 把 它们 放 在 特殊 的 地 址 上 成 为 小 小 的 “孤岛 "， 再 在 编程 
时 特别 加 以 注意 就 可 以 了 。 然 而 ， 人 在 典型 的 NUMA 结构 中 就 需要 来 自 内 核 中 内 存 管 理 机 制 的 支持 了 。 
由 于 多 处 理 内 结构 的 系统 日 益 广泛 的 应 用 , Linux 内 核 2.4.0 版 提供 了 对 NUMA 的 支持 (作为 一 个 编译 
可 选项 )。 

由 于 NUMA 结构 的 引入 ,对 于 .|: 述 的 物理 页 面 管理 机 制 也 作 了 相应 的 修 止 。 管理 区 不 再 是 属于 最 
高 层 的 机 构 ， 击 是 在 每 个 存储 节点 中 都 有 至 少 两 个 管理 区 。 而 且 前 述 的 page 结构 数组 也 不 再 是 全 局 性 
的 ， 而 是 从 属于 具体 的 节点 了 。 从 而 ， 在 zone struct 结构 《以 及 page 结构 数组 ) 之 上 又 有 了 另 一 层 代 
表 者 存储 节点 的 pglist_data 数据 结构 ， 定 义 于 include/linux/mmzone.h 中 : 


79 typedef struct pglist data { 


80 zone t node zones[MAX NR ZONES]: 

81 zonelist t node zonelists[NR GFPINDEX|: 
82 struct page *node mem map; 

83 unsigned long *valid addr bitmap; 

84 struct bootmem data *hdata; 

85 unsigned long node start paddr; 

86 unsigned long node start mapnr; 

87 unsigned long node size; 

88 int node id; 

89 struct pglist data *node next; 


90 } pg data t; 


显然 ， 知 十 存储 节点 的 pglist data 数据 结构 可 以 通过 指针 node. next 形成 一 个 单 链 队列 。 每 个 结构 
中 的 指针 node mem. map 指向 具体 节点 的 page 结构 数组 ， 而 数组 node_zones[ ] 就 是 该 节点 的 最 多 三 个 
NARAK., KK, Æ zone struct 结构 中 也 有 :个 指针 zone_pgdat， 指 向 所 属 节 点 的 pglist_data 数 
据 结 构 。 

同时 ， 又 在 pglist data 结构 里 设置 了 一 个 数组 node_zonelists| ]， 其 类 型 定义 也 在 同一 文件 中 ; 
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71 typedef struct zonelist_struct { 

72 zone t * zones [MAX NR ZONES41)]; // NULL delimited 
13 int gfp mask; 

74 } zonelist t; 


这 里 的 zones[ ] 是 个 指针 数组 ， 各 个 元 素 按 特定 的 次 序 指向 具体 的 页 面 管 理 区 ， 表示 分 配 页 面 时 先 
试 zonesf0] 所 指向 的 管理 区 ， 如 不 能 满足 要 求 就 试 zones[1] 所 指向 的 管理 区 ， 等 等 。 这 些 管理 区 可 以 属 
于 不 同 的 存储 节点 。 这 样 ,针对 上 面 所 举 的 例子 就 可 以 规定 : 先 试 本 节点 , 即 CPU 模块 ! 的 ZONE_DMA 
管理 区 ， 若 不 够 4 个 页 面 就 件 部 从 公用 模块 的 ZONE_DMA 管理 区 中 分 配 。 就 是 说 ， 每 个 zonelist_t 规 
ET -种 分 配 和 策略。 然而， 每 个 存储 节点 不 应 该 只 有 -种 分 配 策略 ， 所 以 在 pglist data 结构 中 提供 的 
是 一 个 zonelist_t 数组 ， 数 组 的 大 小 为 NR_GFPINDEX， 定 义 为 : 


76 #define NR GFPINDEX 0x100 
就 是 说 ， 最 多 可 以 规定 100 种 不 同 的 策略 。 要 求 分 配 和 页 面 时 ， 妆 说 明 采 用 哪 一 种 分 配 策略 。 


前 面 几 个 数据 结构 都 是 用 十 物理 空间 管理 的 ， 现 在 来 看 看 虚拟 空间 的 管理 ， 也 就 是 虚 存 页 面 的 管 
理 。 虚 存 空间 的 管理 不 像 物 理 空 间 的 管理 那样 有 - -个 总 的 物理 页 面 仓库 ， 而 是 以 进程 为 基础 的 ， 每 个 
进程 都 有 各 自 的 虚 存 〈 用 户 ) 空间 。 不 过 ， 如 前 所 述 ， 每 个 进程 的 “系统 空间 ”是 统一 为 所 有 进程 所 
共享 的 。 以 后 我 们 对 进程 的 “ 虚 存 空间 ”和 “用 户 空 间 ” 这 两 个 词 常常 会 不 加 区 分 。 

如 果 说 物理 空间 是 从 “ 供 ” 的 角度 来 答 理 的 ， 也 惑 是 :“ 仓 库 中 还 有 些 什么 ” 则 虚 企 空间 的 管理 
是 从 “ 需 ” 的 角度 来 管理 的 ， 就 是 “我 们 需要 用 虚 存 空间 中 的 哪些 部 分 ”。 拿 虚 存 空间 中 的 “用 户 空 间 ” 
部 分 来 说 ， 大 概 没有 -个 进程 会 真 的 需要 使 用 全 部 的 3G 字 节 的 空间 。 同 时 ， 个 进程 所 需 旧 使 用 的 虚 
存 空 间 中 的 各 个 部 位 又 未 必 是 连续 的 ， 通 常 形成 若 十 离散 的 虚 存 “区 间 ”。 很 自然 地 ， 对 虎 存 区 和 间 的 抽 

是: 个 重要 的 数据 结构 .在 Linux 内 核 中 , 这 就 是 vm. area, struct 数据 结构 , 定义 于 include/linux/mm.h 
"m: 


30 /* 

36 * This struct defines a memory VMM memory area. There is one of these 

37 * per VM-area/task. A VM area is any part of the process virtual memory 
38 * space that has a special rule for the page-fault handlers (ie a shared 
39 * library, the executable area etc). 

40 */ 

At struct vm area struct | 

42 struct mm struct * vm mm; /* VM area parameters */ 

48 unsigned long vm start; 

44 unsigned long vm end; 

45 

46 /* linked list of VM areas per task, sorted by address */ 

47 struct vm area struct *vm noxt; 

48 

49 pgprot t vm page prot; 

50 unsigned long vm flags; 

51 
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52 /* AVL tree of VM areas per task, sorted by address */ 

53 short vm avl height; 

54 struct vm area struct * vm avl left; 

55 struct vm area struct * vm avl right; 

56 

57 /* For areas with an address space and backing store, 

58 * one of the address space-^i mmapi,shared] lists, 

59 * for shm areas, the list of attaches, otherwise unused. 

60 */ 

61 struct vm area struct *vm next share; 

*62 struct vm arca struct **vm pprev sharo; 

63 

64 struct vm operations struct * vm ops; 

65 unsigned long vm pgoff; /* offset in PAGE SIZE units, 
*not* PAGE CACHE STZE */ 

66 struct file * vm file; 

67 unsigned long vm raend; 

68 void * vm private data; /* was vm pte (shared mem) */ 

69 }; 


住 内 核 的 代码 中 ， 用 于 这 个 数据 结构 的 变量 名 常常 是 vma. 

结构 中 的 vm, start 和 vm_end 决定 了 一 个 虚 存 区 间 。vm_start 是 包 仿 在 区 间 内 的 ， 人 而 vm end 则 不 
包 舍 在 区 间 内 。 区 间 的 划分 并 不 仅仅 取决 于 地 址 的 连续 性 ， 也 取决 于 区 间 的 其 他 属性 ， 主 上 娄 是 对 虚 存 
页 而 的 访问 权限 。 如 果 - 个 地 址 范围 内 的 前 一 半 真 面 和 后 一 半 页 面 有 不 同 的 访问 权限 或 其 他 属 忻 ， 就 
得 要 分 成 两 个 区 间 。 所 以 ， 包 合 在 同一 个 区 闻 里 的 所 有 页 面 都 应 有 相同 的 访问 权限 〈 或 者 说 保护 属 忻 ) 


都 要 按 虚 存 地 址 的 高 低 次 序 链接 在 起， 结构 中 的 vm next 指针 就 是 用 十 这 个 月 的 。Hi 于 区 问 的 划分 
并 个 仅 仪 取决 于 地 址 的 连续 性 ， :个 进程 的 虚 存 《用户 空间 很 可 能 会 被 划分 成 大 量 的 区 间 。 内 核 中 
给 定 一 个 虚拟 地 址 而 要 找 出 其 所 属 的 区 间 是 -个 频繁 用 到 的 操作 ， 如 果 每 次 都 要 顺 着 vm next 在 链 中 
作 线 性 搜索 的 话 ， 势 必 会 显 划 地 影响 到 内 核 的 效率 。 所 以 ， 除 了 通过 vm next 指针 把 所 有 区 间 中 成 一 
个 线性 队列 以 外 ， 还 可 以 在 区 问 数量 较 大 时 为 之 建立 -个 AVL (Adelson_Velskii and Landis) 树 。AVL 
树 是 一 种 平衡 的 树 结 构 ， 读 者 从 有 关 的 数据 结构 专著 中 可 以 了 解 到 ， 让 AVL 树 中 搜索 的 速度 快 而 代价 
Æ Olg m， 即 与 树 的 人 小 的 对 数 〈 而 不 是 树 的 大 小 》 成 比例 。 虚 存 区 间 结 构 vm area struct 中 的 
vm avl height, vm avl left 以 及 vm avl right 一 个 成 分 就 是 用 于 AVL W. EREKE AVL By 
ALS. 

在 两 种 情况 下 虚 他 页 而 《或 区 间 ) 会 中 磁盘 文件 发 生 关 系 。-- 种 是 盘 区 交换 (swap ) HAH 
面 不 够 分 配 时 ， 一 些 和 久 木 使 用 的 页 面 可 以 被 交换 到 磁盘 上 太 ， 腾 出 物理 负面 以 供 更 急需 的 进程 使 用 ， 
这 驶 趾 大 家 所 知道 的 一 般 意 义 上 的 “ 按 需 调 度 ” 页 式 虚 存 管理 (demand paging). 5) 种 情况 则 是 将 - 
个 磁盘 文件 映射 到 一 个 进 称 的 用 户 空间 中 。 Linux 提供 了 个 系统 调用 mmap( ) (实际 上 是 从 Unix SysV 
R4.2 开始 的 ), 使 一 个 进程 可 以 将 个 己 经 打开 的 文件 映射 到 其 败 户 空间 中 , 此 后 就 可 以 像 访问 内 存 中 
一 个 学 符 数组 那样 来 访问 这 个 义 件 的 内 容 ， 而 不 必 和 通过 lseek( ).. read( ) 或 write( ) 等 进行 文件 操作 。 

由 丁 虚 存 区 间 (最 终 起 页 | 面 ) 与 伐 格 文件 的 这 种 联系 ， 在 vm_area_struct 结构 中 相应 地 设置 了 一 些 
成 分 ， 如 mapping. vm next share. vm pprev share. vm file 等 ， 用 以 记录 和 和 符 埋 此 种 联系 。 我 们 将 
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企 以 后 结合 其 体 的 情景 介绍 这 些 成 分 的 使 用 。 
虚 存 区 间 结 构 中 另 一 个 重 此 的 成 分 是 vm. ops. 这 是 指向 一 个 vm. operation. struct 数据 结构 的 指针 。 
这 种 数据 结构 也 是 在 include/linux/mm.h 中 定义 的 : 


115 /* 
116 * These are the virtual MM functions - opening of an area, closing and 
117 * unmapping it (needed to keep files on disk up-to-date etc), pointer 
118 * to the functions called when a no-page or a wp-page exception occurs. 
119 */ 
120 struct vm operations struct | 
121 void (¥*open) (struct vm area struct * area); 
122 void (*close) (struct vm_area_strucl * area); 
123 struct page * (*nopage) (struct vm area struct * area, 

unsigned long address, int write access); 
124 1}: 


结构 中 企 是 函数 指针 。 其 中 open. close. nopage 分 别 用 于 虚 存 区 问 的 打开 、 关 闭 和 和 建立 映射 。 为 
什么 要 有 这 些 函 数 呢 ?这 起 因为 对 于 不 同 的 虚 存 区 间 可 能 会 需要 一 些 不 同 的 附加 操作 。 了 芍 数 指针 
nopage 指示 当 央 〈( 虚 存 ) 页 ¢ 面 不在 内 存 中 而 引起 “页 面 出 错 ”(page fault) 异常 〈 见 第 3 章 ) 时 所 应 调 
用 的 函数 。 

最 后，vm_area_struct 中 还 有 一 个 指针 _ vym_mm， 该 指针 指 内 一 个 mm_struct 数据 结构 ， 那 是 在 
include/linux/sched.h "P x: X 83: 


203 struct mm struct { 





204 struct vm area siruct * mmap; /* list of VMAs */ 

205 struct vm area siruct * mmap avl;  /* tree of VMAs */ 

206 struct vm area struct * mmap cache; /* last find vma result */ 

207 pgd t * pgd; 

208 atomic t mm users; /* How many users with user space? */ 

209 atomic t mm count; /* How many references to “struct 
mm struct" (users count as 1) */ 

210 int map count; /* number of VMAs */ 

21i struct semaphore mmap_sem; 

212 spinlock_t page_table lock; 

213 

214 struct list head mmlist; /* List of all active mm s */ 

215 

216 unsigned long start code, end code, start data, end data; 

214 unsigned Jong start brk, brk, start stack; 

218 unsigned long arg start, arg end, env start, env end; 

219 unsigned long rss, total vm, locked vm; 

220 unsigned long def flags; 

221 unsigned long cpu vm mask; 

222 unsigned long swap cnt; /* number of pages to swap on next pass */ 

223 unsigned long swap address; 

224 
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225 /* Architecture-specific MM context */ 
226 mm context t context; 
277. F 


在 内 核 的 代码 中 ， 用 于 这 个 数据 结构 〈 指 针 ) 的 安 量 名 常常 是 mm。 

显然 , 这 是 在 比 vm, area. struct 更 高 层次 上 使 用 的 数据 结构 。 事实 上, 符 个 进程 只 有 一 个 mm struct 
结构 ， 在 每 个 进程 的 “进程 控制 块 ”， 妈 task_struct 结构 中 ， 有 一 个 指针 指 癌 该 进程 的 mm, struct 结构 。 
可 以 说 ，mm_struct 数据 结构 是 进程 整个 用 户 空 间 的 抽象 ， 也 是 总 的 控制 结构 。 结 构 中 的 头 三 个 指针 部 
AE T Hee. 8$ 7 mmap 用 米 建 立 一 个 虚 存 区 问 结构 的 单 链 线 性 队列 。 第 二 个 mmap_avl 用 来 
建立 一 个 虚 存 区 间 结 构 的 AVL 树 ， 这 在 前 而 已 经 谈 过 。 第 三 个 指针 mmap_cache， 用 来 指向 最 近 一 次 
用 到 的 那个 虚 存 区 间 结 构 ， 这 是 因为 程序 中 用 到 的 地 址 常常 带 有 局 部 性 ， 最 近 一 次 用 到 的 区 癌 很 可 能 
束 是 下 一 雇 要 用 到 的 区 间 ， 这 样 就 可 以 提高 效 举 。 另 个 成 分 map_count， 则 说 明 在 队列 中 (或 AVL 
树 中 ) 有 几 个 虚 存 区 间 结 构 ， 也 就 是 说 该 进程 有 几 个 虚 存 区 间 。 指 针 ped 显而易见 是 指向 该 进程 的 页 
面 日 录 的 ， 当 内 核 调 度 一 个 进程 进入 运行 时 ， 就 将 这 个 指针 转换 成 物理 地 址 ， 并 写 入 控制 寡 存 器 CR3， 
这 在 前 面 已 经 看 到 过 了 。 另 一 方面 ， 由 于 mm struct 结构 及 其 下 属 的 vm, area. struct 结构 都 有 可 能 在 不 
同 的 上 下 文中 受到 访问 ， 而 这 些 访问 叉 必 须 互 斥 ， 所 以 在 结构 中 设置 了 用 于 P V 操作 的 信号 量 
(semaphore), Ef] mmap_sem。 此 外 ，page_table_lock 也 是 为 类 似 的 目的 而 设置 的 。 

虽然 一 个 进程 只 使 用 “个 mm, struct 结构 ， 反 过 来 一 个 mm struct 结构 却 可 能 为 多 个 进程 所 共享 。 
最 简单 的 例子 就 是 ， 当 一 个 进程 创建 《vfork( ) 或 clone( )， 见 第 4 章 ) 一 个 子 进程 时 ， 其 子 进程 就 可 能 
与 父 进 程 共享 一 个 mm struct 结构 。 所 以 ， 在 mm struct. 结构 中 还 为 此 设置 了 计数 器 mm users 和 
mm_count。 类 型 atomic_t 实际 上 就 是 整数 ， 但 起 对 这 种 类 型 的 整数 进行 的 操作 必须 是 “原子 ”的 ， 也 
就 是 不 允许 因 中 断 或 其 他 原因 而 受到 干扰 。 

Het segments 指 问 该 进程 的 局 部 段 描 述 表 LDT. AL, 一般 的 进程 是 不 几 局 部 段 描述 表 的 ， 内 有 
在 VM86 EA FIRA LDT. 

结构 中 其 他 成 分 的 用 途 比 较 显 而 易 见 ， 如 start code. end code, start_data、end_data 等 等 就 起 该 
进程 映 象 中 代 但 段 、 数 据 段 、 人 存储 堆 以 及 堆栈 段 的 起 点 和 终点 ， 这 申 就 不 多 说 了 。 注 意 ， 不 要 把 进程 
映 象 中 的 这 些 “ 段 ” 跟 “ 段 式 存储 管理 ”中 的 “ 段 ” 相 混淆 。 

如 前 所 述 ，mm_struct 结构 太 其 属 下 的 各 个 vm_area_struct 只 是 表明 了 对 虚 存 空间 的 需求 。 一 个 虚 
拟 地 址 有 柑 应 的 虚 存 区 间 存 在 ， 并 个 保 谋 该 地 址 所 在 的 抽 和 而 已 经 映射 到 某 一 个 物理 (内 存 或 捞 区 ) 页 
面 ， 更 不 保 让 该 页 面 就 在 内 存 中 。 当 一 个 未 经 映射 的 负面 受到 访问 时 ， 就 会 产生 一 个 “Page Fault” 异 
常 ( 也 称 缺 页 异常 、 缺 页 中 断 )， 那 时 候 Page Fault 异常 的 服务 程序 就 会 来 处 埋 这 个 问题 。 所 以 ， 从 这 
个 意义 上 ，mm_struct 和 vm_area_struct 说 明了 对 页 面 的 需求 ， 前 面 的 page. zone struct 等 结构 则 说 明 
了 对 页 和 面 的 供应 : 而 页 面 日 录 、 中 癌 目录 以 及 页 面 表 则 是 二 者 中 间 的 桥梁 。 

图 2.5 是 个 示意 图 ， 挟 中 说 明了 用 于 进程 虚 存 管理 的 各 种 数据 结构 之 间 的 联系 。 

前 面 讲 过 ， 在 内 核 中 经 常 要 用 到 这 样 的 操作 : 给 定 一 个 属于 某 个 进程 的 虚拟 地 址 ， 闭 求 找 公共 所 
属 的 区 间 以 及 相应 的 vma_area_struct 结构 。 这 是 出 find_vma( ) 来 实现 的 ， 其 代码 在 mm/mmap.c 中 : 
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mm, struct vin area struct 
其 他 vm. area, struct 
pgd 
NIME 
a MEE, 


和 页面 日 录 pgd t 


NE vm operations struct 


负面 映射 表 pte_t 页 面 映射 表 pte_t 


25 ” 虚 存 管理 数据 结构 联系 图 


404 /* Look up the first VMA which satisfies addr < vm end, NULL if none. */ 
405 struct vm area struct * find vma(struct mm struct * mm, unsigned long addr) 
406  ( 


407 struct vm area struct *vma = NULL; 

408 

409 if (mm) { 

410 /* Check the cache first. */ 

411 /* (Cache hit rate is typically around 35%.) x/ 

412 vma = mm-»mmap cache; 

413 if (!(vma && vma-^vm end > addr && vma >vm start <= addr)) | 
414 if (!mm-^mmap avl) { 

415 /* Go through the linear list. */ 

416 vma = mm->mmap; 

417 while (vma && vma->vm_end <= addr) 

418 vma = vma-?vm next; 

419 } else { 

420 /* Then go through the AVL tree quickly. */ 
421 struct vm area struct * tree = mm-»mmap avl; 
422 vma = NULL; 

423 for (es) Ht 

424 if (tree == vm avl empty) 

425 break; 

426 if (iree-^vm end > addr) { 

427 vma — tree; 
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428 if (tree->vm start <= addr) 
429 break: 
430 tree = tree >vm avl left; 
431 } else 
432 tree = tree->vm_avl right; 
433 ) 
434 } 
435 if (vma) 
436 mm-»mmap cache = vma; 
437 } 
438 j 
439 return vma; 
440 } 


当 我 们 说 到 个 特定 的 用 户 空间 虚拟 地 址 时 ， 必 须 说 明 是 哪 一 个 进程 的 虚 存 空间 中 的 地 址 ， 所 以 
函数 的 参数 有 两 个 ， 一 个 是 地 址 ， 一 个 是 指向 该 进程 的 mm_struct 结构 的 指针 。 首 先 看 一 下 这 地 址 是 
否 恰 好 在 上 “次 (最 近 一 次 ) 访问 过 的 同 个 区 间 中 。 根 据 代码 作者 所 加 的 注释 , 命中 率 一 般 可 达 35%, 
这 也 正 是 在 mm struct 结构 中 设置 :个 mmap_cache 指针 的 原因 。 如 果 没 有 命中 的 话 ， 那 就 要 搜索 了 。 
如 果 已 经 建立 过 AVL 结构 (指名 mmap_avl (FS), MA AVL 树 中 搜索 ， 和 否则 就 在 线性 队 歼 中 搜索 。 
最 后 ， 如 果 找 到 的 诉 ， 就 把 mmap_cache 指针 设置 成 指向 所 找到 的 vm, area, struct 结构 。 函 数 的 返回 值 
为 零 (NULL)， 表 示 该 地 址 所 属 的 区 间 还 未 建立 。 此 时 道 常 就 得 此 建立 起 一 个 新 的 虚 存 区 间 结 构 ， 自 
调用 insert. vm. struct ) 将 其 插入 到 mm, struct 中 的 线性 队列 或 AVL AHA. RX insert_vm_struct( ) 的 
源 代码 在 同一 文件 中 : 


961 void insert_vm_struct (struct mm struct *mm, struct vm area struct *vmp) 
962 d 

963 lock vma mappings (vmp) ; 

964 spin lock (&current—>mm->page table lock); 

965 | insert vm struct(mm, vmp); 

966 spin unlock (&current—>mm->page table lock); 

967 unlock vma mappings (vmp) ; 

968} 


将 8 vm_area_struct 数据 结构 插入 队列 的 操作 实际 是 出 __insert_vm_struct( ) 完 成 的 , fH ix T e 
作 绝 不 允许 受到 干扰 ， 所 以 要 对 操作 加 锁 。 这 里 加 了 两 把 锁 。 第 ”把 加 在 代表 新 区 间 的 vm. area, struct 
数据 结构 中 ， 第 二 把 加 在 代表 着 整个 虚 存 空间 的 mm stet 数据 结构 中 ， 使 得 在 操作 过 程 中 不 计 其 他 
进程 能 够 在 中 途 插 进 米 ， 也 对 这 两 个 数据 结构 进行 队 记 操作。 下面 是 _insert_ym_struct( ) 的 主体 ， 我 
们 上 略 去 了 与 文件 映射 有 关 的 部 分 代码 。 由 十 与 find_vma( ) 很 相似 ， 这 里 就 不 加 说 明了 ， 留 给 读者 自行 
阅读 。 对 AVL 缺乏 了 解 的 读者 可 以 只 阅读 不 采用 AVL BP. HI mm->mmap_avl 为 0 的 那 一 部 分 代码 。 





913 /* Insert vm structure into process list sorted by address 

914 * and into the inode’s i_mmap ring. If vm file is non-NULL 

915 * then the i shared lock must be held here. 

916 x/ 

9]7 void | insert vm struct (struct mm struct *mm, struct vm area struct *vmp) 
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918 | 

919 struct vm area struct **pprev; 

920 struct file * file; 

921 

922 if (!mm-mmap avl) | 

923 pprev = &mm—>mmap; 

924 while (kpprev && Ckpprev)-^vm start <= vmp- >vm start) 
925 pprev = &(*pprev)-»vm next; 

926 } else { 

927 struct vm area struct *prev, *next; 

928 avl insert neighbours(vmp, &mm->mmap_avl, &prev, &next); 
929 pprev = (prev ? &prev-?vm next : &mm-^mmap): 

930 if Ckpprev !- next) 

931 printk('insert vm struct: tree inconsistent with list\n’); 
932 } 

933 vmp-2vm next = *pprev; 

934 *pprev = vmp; 

935 

936 mm-»map count-t*; 

937 if (mm-»map count >= AVL MIN MAP COUNT && !mm->mmap_av]) 
938 build mmap avl(mm); 

939 

959 j 


当 :个 虚 存 空间 中 区 间 的 数量 较 小 时 ， 在 线性 队列 中 搜索 的 效率 并 不 成 为 问题 ， 所 以 不 需 时 为 志 
建立 AVL 树 。 而 当 区 间 的 数量 增 大 到 AVL_MIN_MAP_COUNT, 即 32 IRE, o 2238 IE build mmap. avl( ) 
建立 AVL 树 ， 以 提 商 搜索 效率 了 。 


2.4 越界 访问 


页 式 存储 管理 机 制 通过 页 面 日 录 和 页 而 衣 将 每 个 线性 地 址 〈 也 可 以 理解 为 虚拟 地 址 ) 转换 成 物理 
地 址 。 如 果 在 这 个 过 程 中 过 到 某 种 阻碍 而 使 CPU 尤 法 最 终 访问 色相 应 的 物理 内 存单 元 , 映射 便 失 败 了 ， 
而 当前 的 指令 也 就 不 能 执行 完成 。 此 时 CPU 会 产 牛 一 次 页 面 出 错 (Page Fault) 异常 (Exception) Cth 
称 缺 页 中 断 )， 进 而 执行 预定 的 页 和 面 异常 处 理 程 序 ， 使 应 用 程序 得 以 从 因 映 射 失败 而 暂停 的 指令 处 开始 
恢复 执行 ， 或 进行 ”“ 些 善后 处 埋 。 这 里 所 说 的 阻碍 可 以 有 以 下 儿 种 情况 : 

e 相应 的 页 面 日 录 项 或 页 面 表 项 为 宝 ， 也 就 是 该 线性 地 址 与 物理 地 址 的 映射 关系 尚未 建立 ， 或 

3 UARN. 

e IB VIE SEPT. 

e 指令 中 规定 的 访问 方式 与 页 面 的 权限 个 符 ， 例 如 企图 写 一 个 “只 读 ” 的 页 面 。 

在 这 个 情景 里， 我 们 假定 一 段 用 户 程序 曾经 将 ”个 已 打开 文件 通过 mmap( ) 系 统 调 用 映射 到 内 存 ， 
然后 又 已 经 将 映射 撤销 (通过 munmap( ) 系 统 调用 )。 在 撤销 … 个 映射 区 间 时 ， 常 常会 在 虚 存 地 址 空间 
中 徐 下 一 个 孤立 的 空洞 ， 而 相应 的 地 址 则 不 应 继续 使 用 了 。 介 是， 在 用 户 程序 中 往往 会 有 错误 ， 以 至 
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在 程序 中 某 个 地 方 还 再 次 访问 这 个 已 经 撤销 的 区 戚 ( 程 序 员 们 : 定 会 同意 , KER EWAN). 这 时 候 ， 
一 次 因 越 界 访问 一 个 无 效 地 址 (Invalid Address) 而 引起 映射 失败 ， 从 而 就 产生 了 一 次 页 面 出 错 异 常 。 
中 断 请 求 以 及 异常 的 响应 机 制 将 在 “中 断 和 异常 ”一 章 中 集中 介绍 ， 读 者 在 那里 可 以 找到 从 发 生 异 党 
到 进入 内 核 相应 服务 程序 的 全 过 程 。 这 里 假定 CPU 的 运行 已 经 到 达 了 页 面 异 常服 务 程序 的 主体 
do_page_fault( ) 的 入 口 处 。 

函数 do page fault( ) 的 代码 在 文件 arch/i386/mm/fault.c 中 。 这 个 函数 的 代 但 比较 长 ， 我 们 将 随 着 


情景 的 进展 按 需 要 来 展示 其 有 关 的 片断 。 这 里 先 来 看 开头 几 行 代码 ; 


106 asmlinkage void do_page fault (struct pt_regs *regs, 
unsigned long error_code) 
107 { 
108 struct task struct *tsk; 
109 struct mm struct *mm; 
110 struct vm area struct * vma; 
111 unsigned long address; 
112 unsigned long pago; 
113 unsigned long fixup; 
114 int write; 
115 siginfo t info; 
116 
117 /* get the address */ 
118 . asm  ("movl %%cr2, %0":”=r” (address)) ; 
119 
120 tsk = current; 
121 
122 /* 
123 * We fault-in kernel-space virtual memory on-demand. The 
124 * 'reference' page table is init mm. pgd. 
125 * 
126 * NOTE! We MUST NOT take any locks for this case. We may 
127 * be in an interrupt or a critical region, and should 
128 * only copy the information from the master page table, 
129 * nothing more. 
130 */ 
131 if (address >= TASK SIZE) 
132 goto vmalloc fault; 
133 
134 mm = tsk-?^mm; 
135 info.si code - SEGV MAPERR; 
136 
137 /* 
138 * [f we re in an interrupt or have no user 
139 * context, we must. not take the fault... 
140 */ 
141 if (in interrupt( ) || !mm) 
142 goto no context; 
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143 

144 down (&mm->mmap_sem) ; 

145 

146 vma = find vma(mm, address): 

147 if (!vma) 

148 goto bad_area; 

149 if (vma—>vm_start <= address) 

150 goto good area; 

151 if (! (vma->vm flags & VM GROWSDOWN)) 
152 goto bad area; 


首先 是 一 行 汇编 码 。 为 什么 要 用 汇编 码 呢 ? H i386 CPU 产生 “页 面 错 ” 异 常 时 ，CPU 将 导致 映射 
失败 的 线性 地 址 放 在 控制 寄存 器 CR2 中 ， 而 这 显然 是 相应 的 服务 程序 所 必需 的 信息 。 可 是 ,在 C 诸 言 
中 并 没有 相应 的 语言 成 分 可 以 用 来 读 皮 CR2 的 内 容 ， 所 以 内 能 用 沪 : 编 代码 。 这 行 汇 编 代 人 码 只 有 输出 部 
而 没有 输入 部 ， 它 将 %0 与 变量 address 相 结 合 ， 并 说 明 该 变量 应 该 被 分 配 在 一 个 寄存 器 中 。 

同时 ， 内 核 的 中 汤 / 异常 响应 机 制 还 传 过 米 两 个 参数 。 个 是 pt regs 结构 指针 regs, Et H AA 
RES CPU 中 各 寄存 器 内 容 的 一 份 副本 ， 这 是 出 内 核 的 中 断 响应 机 制 保 存 下 来 的 “现场 ”。 而 
error. code 则 进一步 指明 映射 失败 的 具体 妃 因 。 

然后 是 获 凤 当前 进程 的 task_struct 数据 结构 。 在 内 核 中 ， 可 以 通过 一 个 宏 操 作 current 取得 当前 进 
程 (当前 正在 运行 的 进程 ) 的 task. struct 结构 的 地 址 。 在 每 个 进程 的 task. struct 结构 中 有 个 指针 ， 指 
向 其 mm struct 数据 结构 ， 而 跟 虚 存 管理 和 映射 有关 的 信息 都 硅 那 个 结构 中 。 这 里 费 指 出 ，CPU 实际 
进行 的 映射 并 不 涉及 mm, struct. 结构 ， 市 是 像 以 前 讲 过 的 那样 道 过 负 人 和 面 目录 各 页面 表 进行 ,但 是 
mm struct 结构 反映 了 ， 或 者 说 描述 了 这 种 映射 。 

接 下 来 ， 需 要 检测 册 个 特殊 情况 。 一 个 特殊 情况 是 in_interrupt( ) 返 回 非 0, 说 明 映 射 的 失败 发 生 在 
某 个 中 断 服务 程序 中 ， 因 而 与 当前 进程 党 无 关系 。 另 “个 特殊 情况 是 当前 进程 的 mm 指针 为 空 ， 也 就 
是 说 该 进程 的 映射 尚未 建立 , 当然 也 就 不 可 能 与 当前 进程 有 关 。 可 是 , 不 跟 当 前 进程 有 关 , in_intermupt( ) 
又 返回 0， 那 这 次 异常 发 生 在 什么 地 方 呢 ? 其 实 还 是 在 某 个 中 断 / 异常 服务 程序 中 ， 只 不 过 个 在 
in_interrupt( ) 能 检测 到 的 范 用 中 而 已 。 如果 发 生 这 些 特殊 情况 , 控制 就 通过 goto 语句 转 到 标号 no_cotext 
处 ， 不 过 那 与 我 们 这 个 情景 无 关 ， 所 以 我 们 略 去 对 那 段 代码 的 讨论 。 

以 下 的 操作 有 互 斥 的 要 求 ， 也 就 是 不 容许 别 的 进程 来 打扰 ， 所 以 要 有 对 信号 量 的 P/V 操作 ， 即 
down( Yup( ) 操 作 来 保证 。 为 了 这 个 日 的 ， 在 mm struct 结构 中 还 设置 了 所 需 的 信号 量 mmap_sem。 这 
RE, A down( ) 返 回 以 后 ， 就 不 会 有 别 的 进程 来 打扰 了 。 

可 以 想像 ， 在 知道 了 发 生 映射 失败 的 地 址 以 及 所 属 的 进 称 以 后 ， 接 让 来 应 该 要 搞 清 楚 的 是 这 个 地 
址 是 否 落 在 某 个 已 经 建立 起 映射 的 区 间 ， 或 者 进一步 具体 指出 在 哪个 区 间 。 事 实 正 站 这 样 ， 这 职 是 
find vma( ) 所 要 做 的 事情 。 以 前 讲 过 ，find_vmat ) 试 图 在 一 个 虚 存 空间 中 找 出 结束 地 址 人 于 给 定 地 址 的 
第 一 个 区 间 。 如 果 找 不 到 的 话 ， 那 本 次 抽 面 异常 就 必定 是 因 越界 访问 而 引起 。 那 么 ， 在 什么 情况 上 会 
找 不 到 呢 ? 辣 忆 一 下 内 核对 用 广 虚 存 空间 的 使 用 ， 堆 栈 在 用 户 区 的 项 部 ， 从 上 向 下 伸展 ， 和 出 进 公 的 代 
码 和 数据 都 是 白 底 加 上 分 配 空间 。 旭 果 没有 一 个 区 疝 的 结束 地 址 高 于 给 定 的 地 址 ， 才 就 是 说 明 这 个 地 
此 是 在 堆栈 之 上 ， 也 就 是 3G 字 节 以 上 了 。 要 从 用 户 空间 访问 属于 系统 的 空间 ， 拖 当然 是 越界 了 ， 然 后 
BRP In] bad_area， 沾 过 我 们 这 个 情景 所 说 的 不 是 这 个 情况 。 

如 果 找 到 了 这 么 一 个 区 间 ， 而 且 其 起 始 地 址 又 不 高 于 给 定 的 地 址 ( 见 程 夺 148 行 )， 那 就 说 明 给 定 
的 地 址 恰好 落 在 这 个 区 间 。 这 样 , 映射 肯定 已 经 建立 , 所 以 就 转向 good. area 去 进一步 检查 失败 的 原因 。 
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这 也 不 是 我 们 这 个 情景 所 要 说 的 。 
除了 这 两 种 情况 ， 剩 下 的 就 起 给 定 地 址 止 洛 在 两 个 区 间 当 中 的 空 润 里 ， 也 就 是 该 地 址 所 在 页 面 的 
映射 尚未 建立 或 已 经 撤销 。 在 用 户 虚 存 空 间 中 ， 可 能 有 两 种 不 同 的 空洞 。 第 一 种 室 洞 只 能 有 一 个 ， 屠 
就 是 在 堆栈 区 以 下 的 那个 大 空洞 , 它 代表 着 供 动态 分 配 (通过 系统 调用 brk( )) 而 仍 未 分 配 出 去 的 空间 。 
当 映 射 失败 的 地 三 落 在 这 个 空洞 里 时 ， 偿 有 个 特殊 情况 此 考虑 ， 我 们 将 在 下 “个 情景 中 讨论 。 介 是 ， 
怎样 才 知 道 这 地 址 是 落 在 这 个 空洞 里 呢 ? 请 看 程序 150 行 。 我 们 知道 ， 堆 栈 区 起 向 下 伸展 的 ， 如 果 
find vma( ) 找 到 的 区 间 是 堆栈 区 间 ， 那 么 在 它 的 vm. flags 中 应 该 有 个 标志 位 VM_GROWSDOWN。 要 
是 该 标志 位 为 0 的 话 ， 那 就 说 明 空 洞 上 方 的 区 间 并 非 堆 栈 区 ， 说 明 这 个 宇 洞 是 因为 “个 映射 区 间 被 撤 
销 而 留 下 的 ， 或 者 在 建立 映射 时 跳 过 了 一 块 地 址 。 这 就 是 第 二 种 可 能 ， 也 是 我 们 这 个 情景 所 说 的 情况 。 
所 以 ， 我 们 就 随 着 这 里 的 goto 语句 转向 bad_area， 那 是 在 224 77: 


[do page rault( )] 


220 /* 

221 * Something tried to access memory that isn’t in our memory map.. 
222 * Fix it, but check if it's kernel or user first.. 
229 */ 

224 bad area: 

225 up (&mm—>mmap sem); 

226 

227 bad area nosemaphore: 

228 /* User mode accesses just cause a SIGSEGV */ 
229 if (error_code & 4) { 

230 tsk-^thread. cr2 = address; 

231 tsk- thread. error code = error codo; 

232 tsk-^thread. trap no = 14; 

233 info. si_signo = SIGSEGV; 

234 info. si_errno = 0; 

235 /* info.si code has been set above */ 

236 info.si addr = (void *)address; 

237 force sig info(SIGSEGV, &info, tsk); 

238 return; 

239 } 





首先 ， 当 控制 流 到 达 这 里 时 ， 已 经 不 冉 需 要 马 斥 《因为 不 再 对 mm struct 结构 进行 操作 》， 押 以 通 
过 up() 退 出 临界 区 。 接 着 ， 就 要 进一步 苦 察 error_code， 看 看 火 败 的 具体 原因 。 代 码 的 作者 为 此 如 了 注 
解 : 


96 /* 

97 * This routine handles page faults. It determines the address, 

98 * and the problem, and then passes it off to one of the appropriate 
99 * routines. 

100 * 

101 * error code: 

102 * bit 0 == 0 means no page found, 1 means protection fault 
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103 * bit 1 == 0 means read, 1 means write 
. 104 * bit 2 := 0 means kernel, 1 means user-mode 
105 */ 


当 error. code 的 bit2 为 1 EJ, 表示 失败 是 当 CPU 处 于 用 户 模式 时 发 牛 的 , 这 正 与 我 们 的 情景 相符 ， 
所 以 控制 将 进入 229 行 。 在 那里 ， 对 当前 进程 的 task. struct 结构 内 的 一 些 成 分 进行 一 些 设 置 以 后 ， 吕 
辐 该 进程 发 出 “个 强制 的 “信号 ”( 或 称 “ 软 中 断 SIGSEGV。 他 此， 本 次 例外 服务 束 结 束 了 。 

读者 人 概 会 问 :“ 就 这 样 完了 ? ”是 的 , 完了 。 接 下 来 的 详情 ,读者 在 看 了 有 关中 断 人 处 理 和 信和 号 的 前 
节 以 启 就 会 明白 。 每 次 从 中 断 / 异常 返回 之 前 ， 都 要 检查 当前 进程 是 否 有 悬而未决 的 信和 号 天 要 处 理 ， 
在 我 们 这 个 情景 里 当然 是 有 的 ， 其 中 至 少 有 一 个 就 是 SIGSEGV。 然 后 ， 内 核 根据 这 些 待 处 理 信号 的 性 
质 以 及 进程 本 身 的 选择 决定 怎么 办 。 对 有 些 软 中 断 的 处 埋 是 “ 自 庆 ” 的 ， 有 些 则 是 强制 的 。 而 对 十 
SIGSEGV 的 反应 ， 那 是 强制 的 ， 其 后 果 是 在 该 进程 的 显示 屏 上 显示 程序 员 们 怕 见 庆 却 义 经 常见 到 的 
“Segment Fault” 提 水 ， 然 后 使 进程 流产 (撤销 )。 件 十 从 异常 处 型 返 回 用 户 空间 后 的 地 址 ， 在 这 种 情 
况 下 并 无 意义 ， 因 为 本 来 就 不 会 回去 了 。 

我 们 在 这 里 跳 过 了 do_page_fault( ) 叶 的 许多 代码 ， 因 为 那些 代码 与 我 们 眼下 这 个 特定 的 情景 无 关 。 
不 过 ， 以 后 在 其 他 的 情景 里 我 们 人 还 会 回 到 这 些 代码 中 术 。 


2.5 用 户 堆栈 的 扩展 


在 上 一 个 情景 中 ， 我 们 “游览 参观 ”了 一 次 因 越 界 访问 而 造成 映射 失败 从 而 引起 进程 流产 的 过 程 。 
但 是 ， 读 者 也 许 会 感到 惊奇 ， 越 界 访问 有 时 候 是 止 肖 的 。 不 过 ， 这 只 帮 生 在 一 种 情况 下 。 现 在 我 们 就 
来 看 看 当 用 户 扒 栈 过 小 ， 但 是 因 越 办 访问 而 “央视 得 福 ” 得 以 伸 霸 的 和 情景。 在 疯 读本 情景 之 前 ， 读 者 
应 该 先 温习 :下 前 “个 情景 。 

假设 在 进程 运行 的 过 程 中 ， 已 经 用 尽 了 为 本 进程 分 配 的 堆栈 区 间 ， 也 就 是 从 堆栈 的 “项 部 ” 井 始 
( 记 住 , 堆栈 是 从 上 向 下 伸展 的 ), 已 经 到 达 了 已 鼎 射 的 堆栈 区 间 的 下 沿 。 或 者 说 ，CPU 中 的 堆栈 指针 
%esp 已 经 指向 堆栈 区 间 的 起 始 地 址 ， 岂 图 2.6。 


% esp 
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图 2.6 进程 地 址 空间 示意 图 
假定 现在 需要 调用 某 个 子 程序 ， 内 此 CPU 焉 将 返 串 地址 斥 入 堆栈 ， 也 就 是 要 将 返回 地 址 与 入 虚 存 
空间 中 地 址 为 《%esp 一 4) 的 地 方 。 可 是 ， 在 我 们 这 个 情景 中 地 址 (9%esp 一 4) 落 入 了 容 润 路 ， 这 是 尚 
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未 映射 的 地 址 ， 央 此 必然 要 引起 一 次 页 面 错 异常 。 让 我 们 顺 着 上 一 个 情景 中 己 经 走 过 的 路 线 到 达 文 件 
arch/i386/mm/fault.c 的 第 151 47. 


[do page. fault( )] 


151 if (!(vma-?vm flags & VM GROWSDOWN)) 

152 goto bad area; 

153 if (error code & 4) { 

154 /* 

155 * accessing the stack below %esp is always a bug. 
156 * The “+ 32” is there due to some instructions (like 
157 * pusha) doing post-decrement on the stack and that 
158 * doesn’ t show up until later.. 

159 */ 

160 if (address + 32 < regs—>esp) 

161 goto bad area; 

162 } 

163 if (expand stack {vma, address) ) 

164 goto bad_area; 


这 一 次 ， 空 洞 上 方 的 区 问 是 堆栈 区 间 ， 其 VM_GROWSDOWN 标志 位 为 1， 所 以 CPU 就 继续 往 前 
执行 。 当 映射 失败 发 生 在 用 户 空 间 (bit2 为 1 时， 央 堆 栈 操作 而 引起 的 越界 是 作为 特殊 情况 对 待 的 ， 
所 以 还 需要 检查 发 生 异 常 时 的 地 址 是 洛 紧 挨 着 堆栈 指针 所 指 的 地 方 。 在 我 们 这 个 情景 中 , 那 是 %esp 一 4， 
当然 是 紧 挨 着 的 。 但 是 如 果 是 %esp 一 40 呢 ? 老 就 不 会 是 因为 正常 的 堆栈 操作 而 引起 ， 而 是 货真价实 的 
非法 越界 访问 了 。 可 是 ， 怎 样 来 判定 “正常 ”或 不 正常 呢 ? 通常 ， 一 次 压 入 堆栈 的 是 4 个 字 节 ， 所 以 
泳 地 址 应 该 吓 %esp 一 4。 但 是 1386 CPU 有 一 条 pusha 指令 ， 可 以 一 次 将 32 个 字 节 (8 个 32 位 寄存 器 的 
内 容 ) 压 入 堆栈 。 所 以 ， 检 查 的 准则 是 ‰%esp 一 32。 超 出 这 个 范围 就 一 定 是 错 的 了 ， 所 以 跟 在 前 个 情 
景 中 一 样 ， 转 向 bad_area。 而 华 我 们 现在 这 个 情景 中 ， 这 个 测试 应 是 顺利 通过 了 。 

虐 然 是 属于 正常 的 堆栈 扩展 要 求 ， 那 就 应 该 从 空 润 的 顶部 并 始 分 配 阁 干 页 面 建立 映射 ， 并 将 之 并 
入 堆栈 区 间 ， 使 其 得 以 扩展 。 所 以 就 要 调用 expand_stack( )， 这 是 在 文 什 include/linux/mm.h 中 定义 的 
一 个 inline E Xt: 


[do page fault( ) » expand. stack( )] 


487 /* yma is the first one with address < vma->vm end, 

A88 * and even address < vma->vm_start. Have to extend vma. */ 

489 static inline int expand stack (struct vm area struct * vma, 
unsigned long address) 

490 { 

49] unsigned long grow; 

492 

493 address &= PAGE MASK: 

494 grow = (vma >vm_start - address) >> PAGE SHIFT; 

495 if (vma->vm_end - address > current—>rlim[RLIMIT_STACK]. rlim cur 

496 ((vma-^vm mm-^total vm + grow) << PAGE SHIFT) > 
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current->rlim[RLIMIT_AS}. rlim cur) 


497 return —ENOMEM; 

408 vma-»vm start - address; 

499 vma-»vm pgoff -= grow; 

500 vma-»vm mm->total vm += grow; 

501 if (wma vm flags & VM LOCKED) 

502 vma-»vm mm->locked vm += grow; 
503 return 0: 

504} 


参数 vma 指向 一 个 vm area struct 数据 结构 ， 代 表 着 一 个 区 间 ， 在 这 里 就 是 代表 着 用 户 空 间 堆栈 
所 在 的 区 间 。 首 先 ,， 将 地 址 按 页 面 边界 对 齐 ， 并 计算 需要 增长 几 个 页 而 才能 把 给 定 的 地 址 包括 进去 OBI 
常 是 一 个 )。 这 里 还 有 个 问题 ， 雄 栈 的 这 种 扩展 是 理 不 受 限 制 ， 直 到 把 空间 中 的 整个 空洞 用 完 为 止 呢 ? 
不 是 的 。 每 个 进程 的 task. struct 结构 中 都 有 个 rlim 结构 数组 ， 规 定 了 对 每 种 资源 分 配 使 用 的 限制 ， 而 
RLIMIT STACK 就 是 对 用 户 空间 堆栈 大 小 的 限制 。 所 以 ， 这 里 就 进行 这 样 的 检查 。 如 上 果 扩 展 以 后 的 区 
间 大 小 超过 了 可 用 于 堆栈 的 资源 ， 或 者 使 动态 分 配 的 页 面 总 量 超过 了 可 用 于 该 进程 的 资源 限制 ， 那 就 
不 能 扩展 了 ， 就 会 返回 一 个 负 的 出 错 代码 一 ENOMEM， 表 示 没 有 存储 空间 可 以 分 配 了 ; 奋 则 就 应 返回 
0。 当 expand_stack( ) 返 回 的 值 为 非 0， 也 即 一 ENOMEM 时 ， 在 do_page_fault( ) 中 也 会 转向 bad, area; 
其 结果 就 与 前 一 情景 一 样 了 。 不 过 一 般 情况 下 都 不 至 才 用 尽 资源 ， 所 以 expand_stack( ) 一 般 都 是 正常 返 
回 的 。 但 是 ， 我 们 已 经 看 到 ，expand_stack( ) 只 是 改变 了 夫 栈 区 的 vm. area struct 结构 ， 而 并 未 建立 起 
新 扩展 的 页 面 对 物 理 内 存 的 映射 。 这 个 任务 由 接 下 去 的 good. area 完成 ; 


[do page fault( )] 


165 /* 

166 * Ok, we have a good vm area for this memory access, so 
167 * we can handle it.. 

168 x/ 

169 good area: 

170 info.si code - SEGV ACCERR; 

171 write = 0; 

172 switch (error code & 3) | 

173 default: /* 3: write, present */ 
174 aifdef TEST VERIFY AREA 

175 if (regs->cs == KERNEL CS) 

176 printk (WP fault at *081xWM', regs-^eip); 
177 Hendif | 

178 /* fall through */ 

179 case 2: /* write, not present */ 
180 if (!(vma->vm_flags & VM WRITE)) 
18] goto bad_area; 

182 writett; 

183 break; 

184 case 1: /* read, present */ 

185 goto bad area; 

186 case 0: /* read, not present */ 
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187 if (!(vma—>vm flags & (VM READ | VM EXEC))) 
188 goto bad area; 

189 j 

190 

191 fk 

192 * If for any reason at all we couldn't handle the fault, 
193 * make sure we exit gracefully rather than endlessly redo 
194 * the fault. 

195 */ 

196 switch (handle mm fault(mm, vma, address, write)) | 
197 case l1; 

198 tsk-^min flt-*; 

199 break; 

200 case 2: 

201 tsk-^maj flt-**; 

202 break; 

203 case 0: 

204 goto do sigbus; 

205 default: 

206 goto out of memory; 

207 ] 


在 这 里 的 switch 语 多 中 ， 内 核 根 据 由 中 断 响应 机 制 传 过 来 的 error. code 来 进一步 确定 跌 射 失败 的 
原因 并 采取 相应 的 对 策 Cerror code. 最 低 三 位 的 定义 已 经 在 前 节 中 列 出 )。 就 现在 这 个 情景 而 言 ，bit0 
为 0， 表示 没有 物理 页 面 ， 而 bitl 为 1 表示 写 操作 。 所 以 ， 最 低 两 位 的 值 为 2。 既然 是 写 操作 ， 当 然 要 
检查 相应 的 区 间 是 否 允 许 写 入 ， 而 堆栈 段 是 允许 写 入 的 。 于 是 ， 就 到 达 了 了 196 T, WHETER 
handle_mm_fault( ) 了 。 该 函数 定义 于 mm/memory.c 中 : 


[do_page_fault( ) > handle mm fault( )] 


1189 /* 

1190 * By the time we get here, we already hold the mm semaphore 

1191 */ 

1192 int handle mm fault (struct mm struct *mm, struct vm area struct * vma, 
1193 unsigned long address, int write access) 

1194 { 

1195 int ret = -1; 

1196 pgd t *pgd; 

1197 pmd t *pmd; 

1198 

1199 ped = pgd offset(mm, address); 

1200 pmd = pmd alloc(pgd, address); 

1201 

1202 if (pmd) | 

1203 pte t * pte = pte alloc(pmd, address); 

1204 if (pte) 

1205 ret = handle pte fault(mm, vma, address, write access, pte); 
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1206 } 
1207 return ret; 
1208 ) 


根据 给 定 的 地 址 和 代表 着 具体 虚 存 空间 的 mm. struct 数据 结构 ， 由 宏 操 作 ped_offset( ) 计 算出 指向 
该 地 址 所 属 页 面目 录 项 的 指针 。 这 是 在 include/asm_i386/pgtable.h 中 定义 的 ; 


311 /* to find an entry in a page-table-directory. */ 
312 #define pgd_index (address) ((address >> PGDIR SHIFT) & (PTRS PER PGD-1)) 


316 #define pgd offset (mm, address) ((mm)->pgd+pgd index (address) ) 


至 于 下 面 的 pmd_alloc( )， 本 来 是 应 该 分 配 (或 者 找到 ) 一 个 中 间 目 录 项 的 。 由 于 i386 只 使 用 两 层 
映射 , 所 以 在 include/asm_i386/pgtable_2level.h 中 将 其 定义 为 “return (pmd._t *)pgd;”。 也 就 是 说 , 在 1386 
CPU 中 ， 把 具体 的 日 录 项 当成 一 个 只 含 一 个 表 项 《 表 的 大 小 为 1》 的 中 间 日 录 。 所 以 ， 对 于 i386 CPU 
而 言 ，pmd_alloc( ) 是 绝 不 会 失败 的 ， 所 以 这 里 的 pmd 不 可 能 为 0。 读 者 不 妨 硕 着 线性 地 址 的 映射 过 程 
想 想 ， 接 下 来 需要 做 些 什么 ? 页 面目 录 总 是 在 的 ， 相 应 的 目录 项 也 许 已 经 指向 一 个 页 面 表 ， 此 时 需 此 
根据 给 定 的 地 址 在 表 中 找到 相应 的 页 面 表 项 。 或 者 ， 目 录 项 也 可 能 还 是 空 的 ， 那 样 的 话 就 需要 先 分 配 
一 个 页 面 表 ， 再 在 页 面 表 中 找到 相应 的 表 项 。 这 样 ， 才 可 以 为 下 面 分 配 物理 内 存 页 面 并 建立 映射 做 好 
准备 。 这 是 通过 pte_alloc( ) 完 成 的 ， 其 代码 在 include/asm i386/pgalloc.h "H: 


[do_page_fault( ) > handle mm, fault( ) > pte alloc( )] 


120 extern inline pte t * pte alloc(pmd t * pmd, unsigned long address) 
121 { 





122 address = (address >> PAGE SHIFT) & (PTRS PER PTE - 1); 
123 

124 if (pmd_none (*pmd) ) 

125 goto getnew; 

126 if (pmd_bad(*pmd) ) 

127 goto fix: 

128 return (pte t *)pmd page(*pmd) + address; 

129 getnew: 

130 | 

131 unsigned long page = (unsigned long) get pte fast( ): 
132 

133 if (!page) 

134 return get pte slow(pmd, address); 

135 set pmd(pmd, pmd( PAGE TABLE + — pa(page))); 

136 return (pte t *)page + address; 

137 } 

138 Tix 

139 __handle bad pmd (pmd) ; 

140 return NULL; 


141 } 
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先 将 给 定 的 地 址 转换 成 其 所 属 页 面 表 中 的 下 标 。 在 我 们 这 个 情景 中 ， 假 定 指针 pmd 所 指向 的 日 录 
项 为 空 , 所 以 需 归 转 旬 标 号 get_new( ) 处 分 配 个 页 面 表 ,一 个 页 面 表 所 占 的 空间 恰好 是 - -个 物理 页 面 。 
内 核 中 对 页 面 表 的 分 配 作 了 些 优化 。 当 释放 一 个 页 面 表 时 ， 内 核 将 释放 的 和 页面 表 先 你 存在 一 个 缓冲 池 
中 ， 而 先 不 将 其 物理 内 存 页 面 释 放 。 只 有 在 缓冲 池 已 满 的 情况 下 才 真 的 将 页 面 表 所 由 的 物理 内 存 页 面 
释放 。 这 样 ， 在 要 分 配 - 个 页 面 表 时 ， 就 可 以 先 看 一 下 缓冲 池 ， 这 就 赴 get pte fast( )。 要 是 绥 冲 池 已 
经 空 了 ， 那 就 只 好 通过 get pte kernel slow( ) 米 分 配 了 。 读 者 也 许 会 想 ， 分 生 一 个 物理 内 存 页 耐用 作 页 
HERRAR, JAE “sow” W? 回答 是 有 叶 候 可 能 会 很 慢 。 只 要 想 一 下 物理 内 存 页 血 有 可 
能 已 经 腊 完 ， 需 要 把 内 存 中 已 经 占用 的 页 而 交换 到 磁盘 上 去 ， 就 可 以 明白 了 。 分 配 到 一 个 页面 表 以 后 ， 
就 通过 set_pmd( ) 中 将 其 起 始 地 址 连同 ”“: 些 属性 标志 位 一 起 写 入 中 间 日 录 项 pmd 中 ， 而 对 i386 却 实 除 
上 写 入 到 了 页 面 日 录 项 pgd 中 。 这 样 ， 喘 射 所 需 的 “基础 设施 ”都 己 经 齐全 了 ， 但 负面 表 项 pte HET 
的 。 简 下 的 就 是 物理 内 存 负 {和 引 本 寺 了 ， 于 是 由 handle_pte_fault( ) 完 成 的 。 克 图 数 定义 二 mm/memory.c 
内 : 





[do_page_fault( ) > handle_mm_fault( ) > handle pte fault( )] 


1135 /* 

1136 * These routines also need to handle stuff like marking pages dirty 
1137 * and/or accessed for architectures that don’t do it in hardware (most 
1138 * RISC architectures). The early dirtying is also good on the i386. 
1139 * 

1140 * There is also a hook called "update mmu cache( )' that architectures 
1141 * with external mmu caches can use io update those (ie the Sparc or 
1142 * PowerPC hashed page tables that act as extended TLBs). 

1143 * 

1144 * Note the "page table lock”. lt is to protect against kswapd removing 
1145 * pages from under us. Note that kswapd only ever removes pages, never 
1146 * adds them. Ás such, once we have noticed that the page is not present, 
1147 * we can drop the lock early. 

1148 * 

1149 * The adding of pages is protected by the MM semaphore (which we hold), 
1150 * so we don t need to worry about a page being suddenly been added into 
1151 * our VM. 

1152 */ 

1153 static inline int handle_pte_fault (struct mm_struct *mm, 

1154 struct vm area struct * vma, unsigned long address, 

1155 int write access, pte t * ple) 

1156 { 

1157 pte t entry; 

1158 

1159 /* 

1160 * We need the page table lock to synchronize with kswapd 

1161 * and the SMP-safe atomic PTE updates. 

1162 */ 

1163 spin lock(&mm-^page table lock); 

1164 entry = *pte; 
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1165 if (!pte present(entry)) | 
1166 /* 
1167 * If it truly wasn t presenti, we know that kswapd 
1168 * and the PTE updates will not touch it later. So 
1169 * drop the lock. 
1170 */ 
1171 spin unlock(&mm-^page table, lock); 
1172 if (pte none(entry)) 
1173 return do no page(mm, vma, address, write access, pte); 
1174 return do swap page(mm, vma, address, pte, 
pte to swp entry(entry), write access); 
1175 ] 
1176 
1177 if (write access) { 
1178 if (!pte write(entry)) 
1179 return do wp page(mm, vma, address, pte, entry); 
1180 
1181 entry = pte mkdirty (entry); 
1182 } 
1183 entry = pte mkyoung (entry); 
1184 establish pte(vma, address, pte, entry); 
1185 spin unlock(&mm-^page table lock); 
1186 return 1; 
187  ] 


TRNAS RE, NETRA ATOR RMA. FAV RIE 定 是 空 的 。 这 
样 ， 程 序 一 开头 的 让 AINA 一 定 能 满 是 ， 因 为 pte present( ) 测 试 -一 个 表 项 所 映射 的 页面 古 和 否 在 内 
存 中 ， 调 我 们 的 物理 内 在 负面 还 没有 分 配 。 进 步 ，pte_none( ) 所 测试 的 条 件 也 一 定 能 满足 ， 央 为 它 测 
试 一 个 表 项 是 否 为 党 。 所 以 ， 就 必定 会 进入 do_no_page( ) (否则 就 是 do_swap_page( ) )。 顺 使 讲 一 下 ， 
如 果 pte_present( ) 的 测试 结果 是 该 表 项 所 映射 的 页 面 确实 在 内 存 中 , 那么 问题 -一定 出 在 访问 权限 , 或 者 
根本 就 没有 问题 了 。 

KS do_no_page( ) 也 是 在 mm/memory.c 中 定义 的 。 这 里 先 简 要 地 介绍 一 下 ， 然 后 再 米 看 代码 。 

以 前 我 们 曾经 提起 过 ， 在 虚 存 区 间 结 构 vm area struct 中 有 个 指针 vm_ops， 指 向 一 个 
vm operations struct. 数据 结构 。 这 个 数据 结构 实际 | 是 “个 函数 跳 转 表 ， 结 构 中 通常 是 一 : 些 与 文件 操 
作 有 关 的 函数 指针 。 其 中 有 一 个 函数 指针 就 是 用 于 物 埋 内 存 页 而 的 分 配 。 物 理 内 存 页 面 的 分 配 为 什么 
与 文件 操作 有 关 呢 ?因为 这 对 十 可 能 的 文件 共享 是 很 有 意义 的 。 当 多 个 进程 将 同一 个 文件 映射 到 各 自 
的 虚 存 空间 中 时 ， 内 存 中 通常 只 要 保存 一 份 物 理 页 面 就 可 以 了 。 只 有 当 个 进程 需要 写 入 该 文件 时 才 
f EM “ 份 独立 的 副本 ， 称 为 “copy on write" 或 者 COW. XF COW 我 们 在 进程 -一 章 中 讲 到 
fork( ) 时 还 旧作 较为 详细 的 介绍 。 这 样 ， 当 通过 mmap( ) 将 一 块 虚 存 区 间距 一 个 已 打开 文件 (包括 设备 ) 
建立 起 映射 后 ， 就 可 以 通过 对 这 些 函 数 的 调用 将 对 内 存 的 操作 转化 成 对 文件 的 操作 ， 或 者 进行 “ 些 必 
要 的 对 文件 的 附 册 操作 。 刀 “方面 ， 物 理 页 和 南 的 盘 区 交换 显然 也 是 跟 文 件 操作 有 关 的 。 所 以 ， 为 特定 
的 虚 存 空间 预先 指定 一 些 特定 的 操作 常常 起 很 有 必要 的 。 村 是， 如 果 凯 经 预先 为 ~ 个 虚 存 区 间 vma 指 
定 了 分 配 物理 内 存 页 面 的 操作 的 话 ， 孝 就 是 vma->vm_ops->nopage( )。 但 是 ，vma->vm_ops 和 
vma-»vm ops-»nopage AA HAEE T, MARRA AZI EHER nopage( HRE, BRA AA 
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配备 一 个 vm operation struct. 结构 。 当 没有 指定 的 nopage( ) 操 作 时 ， 内 核 就 调用 一 个 函数 
do_anonymous_page( ) 来 分 配 物 理 内 存 页 面 。 
现在 来 看 看 do_no_page( ) 的 开头 儿 行 : 


[do page fault( ) > handle, mm fault( ) > handle pte fault( ) > do_no_page( )] 


1080 /* 

1081 * do no page( ) tries to create a new page mapping. It aggressively 

1082 * tries to share with existing pages, but makes a separate copy if 

1083 * the "write access/ parameter is true in order to avoid the next 

1084 * page fault. 

1085 * 

1086 * As this is called only for pages that do not currently exist, we 

1087 * do not need to flush old virtual caches or the TLB. 

1088 * 

1089 * This is called with the MM semaphore held. 

1090 */ 

1091 static int do no page(struct mm struct * mm, struct vm area struct * vma, 
1092 unsigned long address, int write access, pte t *page table) 

1093 { 

1094 struct page * new page; 

1095 pte t entry; 

1096 

1097 if (!vma-^vm ops || !vma-^vm ops-^nopage) 

1098 return do anonymous page(mm, vma, page table, write access, address); 
1133. ] 


Mt FRAT MARR UL, 所 涉及 的 虚 存 区 间 是 供 堆 栈 用 的 ， 跟 文件 系统 或 页 面 共 学 没有 什么 关系 ， 
不 会 有 指定 的 nopage( ) 操 作 ， 所 以 进入 do_anonymous_page( )。 


[do_page_fault( ) > handle_mm_fault( ) > handle pte fault( ) > do_no_page( ) 
> do_anonymous_page( )] 


1058 — /* 

1059 * This only needs the MM semaphore 

1060 */ 

1061 static int do anonymous page (struct mm struct * mm, 
struct vm area struct * vma, pte t *page table, 
int write access, unsigned long addr) 

1062 { 

1063 struct page *page = NULL; 


1064 pte t entry = pte _wrprotect (mk_pte (ZERO PAGE (addr), 
vma-?vm page prot)); 


1065 if (write access) { 
1066 page = alloc page (GFP HIGHUSER); 
1067 if ('page) 


- 64 . 


第 2 章 ”存储 管理 


1068 return -1; 

1069 clear user highpage(page, addr): 

1070 entry = pte mkwrite(pte mkdirty(mk pte(page, vma-»vm page prot))); 
1071 mm-»rsst*; 

1072 flush page to ram(page) ; 

1073 ) 

1074 set pte(page table, entry); 

1075 /* No need to invalidate - it was non-present before */ 
1076 update mmu cache(vma, addr, entry); 

1077 return 1;  /* Minor fault */ 

1078 ] 


AACR Bel, WRG UI RS RIA ERE, MAA mk pte( ) 构 筑 的 映射 表 项 要 道 过 
pie. wrprotect( ) 加 以 修正 ， 人 而 如 果 是 写 操作 (参数 write access 为 非 0)， 则 通过 pte_mkwrite( AH EAE iE . 
这 二 者 有 什么 不 同 呢 ? X. include/asm-i386/pgtable.h: 


277 static inline pte t pte_wrprotect (pte t pte) \ 
{ (pte). pte_low &= ~ PAGE RW; return pte; } 


270 static inline int pte_write(pte_t pte) \ 
{ return (pte). pte low & PAGE RW; | 


对 比 一 下 ， 就 可 看 出 ， 在 pte wrprotect( )H, 48 PAGE RW 标志 位 设 成 0， 表 示 这 个 物理 页 面 只 
允许 读 ; 而 在 pte write( ) 却 把 这 个 标志 位 设 成 1. A, WSR, TIRE 5 47 98 0d II i3 A 
ZERO_PAGE， 这 个 页 面 是 在 include/asm_i386/pgtable.h 中 定义 的 : 


91 /* 

92 * ZERO PAGE is a globai shared page that is always zero: used 
93 * for zero-mapped memory areas etc.. 

94 */ 


95 extern unsigned long empty zero page[1024]; 
96 define ZERO PAGE(vaddr) (virt to page(empty zero page)) 


Prelit, Heal “Rik” (HRA SOP) 的 页 而 ， 开 始 时 都 一 律 映 射 到 同一 个 物理 内 存 页 面 
empty_zero_page， 而 小 管 其 虚拟 地 址 是 什么 。 实 际 上 ， 这 个 页 而 的 内 容 为 全 0， 所 以 映射 之 初 若 从 该 
页 面 读 出 就 读 得 0。 从 有 可 号 的 负面， 才 道 过 alloc_page( ) 为 其 分 配 独立 的 物理 内 存 。 人 在 我 们 这 个 情景 
里 ， 上 所 需要 的 页 面 是 在 堆栈 区 ， 并 月 是 由 于 筷 操 作 才 引起 异常 的 ， 所 以 要 通过 alloc_page( ) 为 其 分 配 一 
个 物理 内 存 页 面 , 并 将 分 配 到 的 物理 页 面 连同 所 有 的 状态 及 标志 位 ( 见 程 序 1115 行 )， Y set. pte() 


的 update_mmu_cache( )X} 1386 CPU AF AA A include/asm_i386/pgtable.h), 因为 1386 的 MMU (内 
存 管理 单元 ) 是 实现 在 CPU 内 部 ， 而 并 没有 独立 的 MMU. 

了 映射 既 已 建立 ， 下 面 就 是 逐 层 返回 了 。 由 于 映射 成 功 ， 各 个 层次 中 的 返 同 值 都 是 1， 直 至 
do_page_fault( )。 在 函数 do page fault( ) 中 ， 还 要 处 理 … 个 与 VM86 模式 以 及 VGA 的 图 像 存储 区 有 关 
的 特殊 情况 ， 但 是 那 与 我 们 这 个 情景 已 经 没有 关系 了 : 
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[do page fault( )] 


209 /* 

210 * Did it hit the DOS screen memory VA from vm86 mode? 
211 */ 

212 if (regs->eflags & VM MASK) | 

213 unsigned long bit = (address - OxA0000) >> PAGE SHIFT: 
214 if (bit < 32) 

215 tsk->thread. screen bitmap != 1 << bit; 

216 } 

217 up(&mm-^mmap sem); 

218 return; 


最 后 ， 特 别 要 指出 ， 当 CPU 从 一 次 页 面 错 异 常 处 理 返 叫 到 用 户 空间 时 ， 将 会 先 重 新 执行 因 上 映射 失 
败 而 中 途 天 折 的 那 条 指令 ， 然 后 才 继 续 往 下 执行 ， 这 是 异常 处 理 的 特殊 性 。 学 过 有 关 课程 的 读者 都 知 
道 ， 中 斯 以 及 自 陷 Crap 指令 ) REN, CPU 部 会 将 下 :条 指令 ， 也 就 是 接 下 去 本 来 应 该 执行 的 指令 
的 地 址 压 入 堆栈 作为 中 断 服务 的 返 冉 地址。 但 是 异常 却 不 同 。 当 异常 发 生 时 ，CPU 将 因 无 法 完成 〈 例 
如 除 以 0， 上 映射 失败 ， 等 等 而 天 折 的 指令 本 里 的 地 址 而 不 是 卜 一 条 指令 的 地 址 》 压 入 堆栈 。 这 样 ， 
就 可 以 在 从 异常 处 理 返回 时 完成 未 竟 的 事业 。 这 个 特殊 性 是 在 CPU 的 内 部 电路 中 实现 的 ， 而 不 壳 由 软 
件 干预 。 从 这 个 意义 上 讲 ， 所 谓 “ 缺 页 中 类 ”是 不 对 的 ， 应 该 叫 “ 缺 页 异常 ” 才 对 。 在 我 们 这 个 情景 
中 ， 当 初 是 因为 在 一 条 指令 中 要 压 栈 ， 但 是 越 出 了 已 经 为 堆栈 区 分 配 的 空间 而 引起 的 。 才 条 指令 在 当 
时 已 经 中 途 天 折 了 ， 并 没有 产生 什么 效果 例如 堆栈 指针 9%esp itti ARRE). ME, MRK 
处 理 返 同 以 后 ， 堆 栈 区 已 经 扩展 了 ， 再 重新 执行 遍 以 前 天 折 的 者 条 不 栈 指令 ， 然 后 束 中 以 继续 往 下 
执行 了 。 对 于 用 户 程 序 来 说 ， 这 整个 过 程 都 是 “透明 ”的 ， 就 像 什 么 事 也 没有 发 生 过 ， 而 堆栈 区 间 就 
仿佛 从 一 开始 就 已 经 分 配 好 了 是 够 大 的 空间 - 样 。 


2.6 物理 页 面 的 使 用 和 周转 


除 CPU 之 外 ， 对 于 像 Linux 这 样 的 现代 操作 系统 来 说 ， 物 理 存储 页 种 可 以 说 是 最 基本 、 最 里 要 的 
资源 了 。 物 理 存 储 页 面 在 系统 中 的 使 用 和 周转 就 好 像 资 金 在 企业 中 的 使 用 和 周转 AER. AE, 
者 对 此 最 好 能 有 网 多 一 些 了 解 。 

首先 些小 清 本 书 中 使 用 的 儿 个 术语 。“ 虚 存 页 而 ”， 是 指 人 在 虚拟 地 址 空间 中 -个 固定 大 小 ， 边 界 与 
页 面 大 小 (KB) 对 齐 的 区 间 及 其 内 容 。 虚 存 页 而 最 终 要 洲 实 到 ， 或 者 鸯 此 映射 钊 某 种 物理 存储 介质 
上 ， 那 就 是 “物理 页 面 *。 根 据 具体 介质 的 不 同 ， BEES. ma ES E. HT 
区 分 这 两 种 情况 ， 本 书 将 分 别称 之 为 “(物理 ) 内 存 页 面 ” 和 和 “ 盘 上 物理) 页面 "。 此 外 ， 在 东 项 外 
部 设备 上 ， 例 如 华 网 络 接口 卡 上 ， 册 来 存储 一 个 页 面 内 容 的 那 部 分 介质 ， 也 称 为 一 个 物理 页 耐 。 所 以 ， 
当 我 们 在 谈 及 物理 内 存 页 面 的 分 配 和 释放 的 时 候 ， 指 的 仅 是 物理 介质， 而 在 谈 及 页 友 的 换 入 和 换 出 时 
则 指 的 是 其 内 容 。 读 者 ， 特 别 是 非 计 算 机 专业 的 读者 ， 一 定 要 清楚 并 记 住 这 ow. 

如 前 所 述 ， 每 个 进程 的 虎 存 空间 是 很 大 的 《用 户 空 间 为 3GB)。 不 过 ， 季 个 进程 实际 上 使 用 的 空间 
则 要 小 得 多 ， 一般 不 会 超过 儿 个 MB。 特 别 地 ， 传 统 的 Linux〔 以 及 Unix) 可 执行 程序 通常 都 是 比较 小 
的 ， 例 如 几 十 KB 或 一 二 百 KB。 可 是 ， 当 系统 中 有 几 百 个 、 上 让 千 个 进 称 同 时 存在 的 时 候 ， 对 存储 空间 
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的 需求 总 量 束 很 大 了 。 在 这 样 的 情况 下 ， 虐 为 系统 配备 足够 的 内 存 就 很 准 。 所 以 ， 人 在 计算 机 技术 的 发 
展 史上 很 时 就 有 了 把 内 存 的 内 容 与 一 个 专用 的 磁盘 学 问 “ 交 换 ” 的 技术 ， 即 把 暂时 不 用 的 信息 〈 内 容 ) 
存放 到 磁 才 上 ， 为 其 他 急用 的 信息 腾 出 空间 ， 到 需要 时 冉 从 磁 操 上 读 进 来 的 技术 。 早 期 的 盘 区 交换 技 
术 是 建立 在 段 式 存储 管理 的 基础 上 的 ， 当 一 个 进程 暂 不 运行 的 时 候 就 可 以 把 它 《〈《 代 但 段 和 数据 段 等 ) 
交换 出去 把 其 他 进程 换 进 来 ， 卜 “交换 ”)， 到 调度 这 个 进程 运行 时 再 人 交换 回来 。 显 然 ， 这 样 的 盘 
区 交换 是 很 粗糙 的 ,对 系统 性 能 的 影响 也 比较 大 , 所 以 后 来 发 展 起 了 建立 在 页 式 存 储 管理 基础 上 的 “ 按 
需 页 面 交换 ”技术 。 

在 计算 机 技术 中 ， 时 间 和 空间 是 ~ 对 了 矛盾， 常常 需要 在 .者 之 间 折 中 权衡 ， 有 时 候 是 以 空间 换 时 
问 ， 有 时 候 是 以 时 间 换 空间 。 山 页面 的 交换 ， 则 是 典型 的 以 时 间 换 空间 。 必 须 指 出 ， 这 只 是 不 得 已 而 
为 之 。 特 别 是 在 有 实时 要 求 的 系统 中 ， 是 不 宜 采 用 页 面 交 换 的 ， 内 为 它 使 程序 的 执行 在 时 间 上 有 了 较 
大 的 不 懈 定 性 。 因 此 ，Linux 提供 了 用 米 井 局 和 关闭 页 面 父 换 机 制 的 系统 调用 ， 人 不 过 我 们 在 本 章 的 叙述 
中 假定 它 古 打开 的 。 

在 介绍 负面 周转 的 集 略 之 脂 , 先 要 对 物理 页 耐 、 特 别 是 位 捞 页 面 的 抽象 描述 作 一 个 简要 说 明 。 

前 面 已 经 简略 地 介绍 过 ， 为 了 方便 (物理 ) 内 存 页 而 的 管理 ， 每 一 个 内 存 页 面 都 对 应 一 个 page 数 
据 结 构 。 每 一 个 物理 内 存 负 和 面 之 有 page 数据 结构 (以 及 竺 个 进程 之 有 其 task_struct 结构 )， 就 好 像 每 个 
人 之 有 “户口 ”或 者 “档案” 一样。 一 个 物 埋 上 存在 的 人 ， 如 果 没 有 户口 ， 从 管理 的 角度 来 说 便 是 不 
存在 的 。 同 样 ， 一 个 物理 上 存在 的 内 存 页 面 ， 如 果 浅 有 … :个 相应 的 page 结构 ， 就 根本 不 会 被 系统 “看 
到 ”。 人 在 系统 的 初始 化 阶段 ， 内 核 根据 检测 到 的 物理 内 存 的 大 小 ， 为 每 一 个 贞 面 都 建立 -个 page 结构 ， 
形成 “个 page 结构 的 数组 ， 并 使 一 个 全 局 量 mem map 指向 这 个 数组 。 同 时 ， 义 按 需要 将 这 些 页 面 拼 
合成 物理 地 址 连续 的 许多 内 存 页 面 “ 块 ” RRRA DEEST EEK” (zone), MERNE 
理 区 中 则 设置 个 空 用 块 队列 ， 以 便 物理 内 存 页 而 的 分 配 使 用 。 这 一 些 ， 读 者 已 经 在 前 面 看 到 过 了 。 

与 此 类 似 ， 交 换 没 备 〈 通 党 是 磁盘 ， 也 可 以 是 普通 文件 ) 的 每 个 物理 页 面 也 要 在 内 存 中 有 个 相应 
的 数据 结构 或 者 说 “户口 ”)， 不 过 那 要 简单 得 多 ,实际 上 只 是 -个 计数 ， 表 示 该 页 面 是 否 己 被 分 配 
使 用 ， 以 及 有 儿 个 用 户 在 共享 这 个 负面 。 对 盘 上 负面 的 管理 是 按 文 件 或 磁盘 设备 来 进行 的 。 内 核 中 定 
义 了 一 个 swap info struct 数据 结构 ， 用 以 描述 和 和 管理 用 于 页 和 面 交 换 的 文件 或 设备 。 它 的 定义 包含 在 


include/linux/swap.h "P: 


49 struct swap info struct | 


50 unsigned int flags; 

ol kdev t swap device; 

52 spinlock t sdev lock; 

53 struct dentry * swap filc; 

54 struct vfsmount *swap vfsmnt; 

55 unsigned short * swap map; 

56 unsigned int lowest bit; 

57 unsigned int highest bit; 

58 unsigned int cluster next; 

59 unsigned int cluster nr; 

60 int prio; /* swap priority */ 
61 int pages; 

62 unsigned long max; 

63 int next; /* next entry on swap list */ 
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其 中 的 指针 swap map HE 个 数组 ， 该 数组 中 的 他 AE S RR edu EC a a oct 
中 ) KAARE, MRA Pee TAREE LIN. RAN AD RRA F pages, 
它 表示 该 页 面 交 换 设备 或 文件 的 大 小 。 设 备 上 (或 义 件 中 ， 设 备 也 是 种 文件 ， 下 同 》 的 第 个 页 面 ， 
也 即 swap_map[0] 所 代表 的 那个 页 面 是 不 用 十 页面 交换 的 , 它 包 含 了 该 设备 或 文件 自身 的 一 些 信 息 以 及 
一 个 表明 哪些 页 面 可 供 使 用 的 位 图 。 这 些 信 息 最 初 是 在 把 该 设备 格式 化 成 页 面 交 换 区 时 设置 的 。 根 据 
不 同 的 页 而 交换 区 格式 《以 及 版 本 )， 还 有 一 些 其 他 的 页 面 也 不 供 页 面 人 交换 使 用 。 这 些 页 面部 集中 在 开 
头 和 结尾 两 个 地 方 ， 所 以 swap_info_struct 结构 中 的 lowest_bit 和 highest_bit 就 说 明文 件 中 从 什么 地 方 
开始 到 什么 地 方 为 止 是 供 奥 和 夯 交 换 使 用 的 。 为 个 宁 段 max 则 表示 该 设备 或 文件 中 最 大 的 页 面 号 ， 也 
就 是 设备 或 文件 的 物理 大 小 。 

由 十 存储 介质 是 转动 的 磁盘 , 将 地 址 连续 的 页 面 存 储 在 连续 的 磁盘 请 区 中 不 见得 是 最 有 效 的 方法 ， 
所 以 在 分 配 桂 上 页 面 空间 时 尽 可 能 按 集 群 (cluster) 方式 进行 ， 而 字段 cluster_next 和 cluster. nr 就 是 为 
此 而 设置 的 。 

Linux 内 核 允 许 使 用 多 个 页 面 交 换 设备 《或 文件 )， 所 以 在 内 核 中 建立 了 一 个 swap. info struct 结构 
的 阵列 《数组 ) swap_info， 这 是 在 mm/swapfile.c 中 定义 的 ; 





25 struct swap info struct swap_info [MAX SWAPFILES]; 


同时 , 还 设立 了 一 个 队列 swap. list, 将 各 个 可 以 分 配 物 理 页 面 的 磁盘 设备 或 文件 的 swap. info. struct 
结构 按 优先 级 高 低 链 接 在 一 起 : 


23 struct swap list t swap list = {-1, -1l}; 
这 里 的 swap. list t 数据 结构 是 在 include/linux/swap.h 中 定义 的 : 


153 struct swap list t { 


154 int head; /* head of priority-ordered swapfile list */ 
155 int next; /* swapfile to be used next */ 
156- }; 


开始 时 队列 为 室 ， 所 以 head 和 next 均 为 一 1。 当 系统 调用 swap. on( ) 指 定 将 一 个 文件 用 于 页 面 交 
换 时 ， 就 将 该 文件 的 swap. info. struct 结构 链 入 队列 中 。 

就 像 通过 pte t 数据 结构 (页 而 表 项 将 物理 内 存 页 看 与 虚 存 员 面 建 并 联系 一 样 ， 柑 上 页 面 也 有 这 
么 一 个 swp_entry_t 数据 结构 ， 这 起 在 include/linux/mm.h 中 定义 的 : 


8 /* 

9 * A swap entry has to fit into a “unsigned long”, as 

10 * the entry is hidden in the “index” field of the 

ll * swapper address space. 

12 * 

13 * We have to move it here, since not every user of fs.h is including 
14 * mm.h, but m.h is including fs.h via sched .h :-/ 
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15 */ 
16 typedef struct { 
17 unsigned long val: 


18 } swp_entry_t: 


可 见 ， 一 个 swp_entry_t 结构 实际 上 只 是 -一 个 32 TCA S BR. (HAL, KP 32 位 整数 实际 上 分 成 
三 个 部 分 ， 见 疼 2.7。 


offset type 





24 位 74 最 低位 水 远 是 0 
2.7 页 面 交 换 项 结构 示意 图 


文件 include/asm-i386/pgtable.h 中 还 为 type Fu offset 村 个 位 段 的 访问 以 及 与 pte t 结构 之 间 的 关系 ， 
定义 了 儿 个 宏 操 作 : 


336 /* Encode and de-code a swap entry */ 
337 define SWP_TYPE (x) (Cx). val >> 1) & 0x3f) 
338  #define SWP_OFFSET (x) ((x). val >> 8) 
339 define SWP_ENTRY (type, offset) V 

((swp entry t) { ((type) << D | ((offset) << 8) }) 
340 #define pte to swp entry(pte) ((swp entry t) { (pte).pte low }) 
34] #define swp entry to pte(x) ((pte t) { (x). val }) 


这 里 offset op WRI CE AR BCE PR, TREC PEP ee Ulp: 而 type M 
fA SCE, NYS. MEI AIRS Re SRA, DIU ASTE A AC d xc 
备 或 文件 的 序号 〈 RURA 127 个 这 样 的 文件 ， 人 实际 二 则 视 系 统 的 配置 而 定 ， 远 小 于 127)， 为 
什么 却 称 之 为 type WE? 估计 这 是 从 pte t 结构 中 过 来 的 。 读 者 可 能 记得 ，pte_t 实际 上 也 是 一 个 32 位 无 
符号 整数 ， 其 中 最 高 的 20 位 为 物理 页 面 起 始 地 址 的 商 20 位 (物理 页 面 起 始 地 址 的 低 12 位 永远 是 0， 
因为 页 面 痢 是 4KB 边界 对 齐 的 )， 册 与 这 7 位 相对 应 的 则 者 是 些 表 示 页 面 各 种 性 质 的 标志 位 ， 如 RW, 
U/S， 等 等 ， 所 以 称 之 为 type 位 段 。 而 swp_entry_t 4 pte t 两 种 数据 结构 大 小 相同 ， 关 系 非常 密切 。 当 
一 个 页 面 在 内 存 中 时 ， 页 面 表 中 的 表 项 ptet 的 最 低位 P 标志 为 1， 表 示 页 面 企 内 存 中 ， 而 其 余 台 位 指 
明 物 理 内 存 页 而 的 地 址 及 页 而 的 属性 。 而 当 一 个 页 而 在 磁盘 上 时 ， 则 相应 的 页 面 表 项 不 再 指 剖 “个 物 
理 内 存 负 而 ， 而 是 变 成 了 个 swp_entry_t“ 衣 项 ”， 指 示 寿 这 个 页 而 的 去 周 。 由 于 此 时 其 最 低位 为 0， 
do BUSES, PEEL CPU PIN MMU 单元 对 其 余 各 位 都 忽略 不 克 ， 而 留 符 系 统 软件 目 己 来 加 以 解 
E. 在 Linux 内 核 中 ， 就 几 它 来 惟 “地 确定 一 个 和 抽 面 在 盘 上 上 的 位 置 ， 包 括 在 哪 一 个 文件 或 设备 ， 以 及 
页 面 在 此 文件 中 的 相对 位 置 。 

所 以 ， 当 页 面 在 内 存 时 ， 页 面 表 小 的 相应 表 项 确定 了 地 址 的 映射 关系 ; ANEW EET. RU 
指明 了 物 型 页 面 的 去 向 和 所 在 。 读 者 在 阅读 内 核 的 源 程序 时 ， 不 妨 将 SWP TYPE(entry) 18 £8 J 
SWP_FILE(entry). 

Pig AAS b RT UT EO SP 2A. BT a ot £e SR OT RA B CE ERE 
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先 介 绍 一 下 用 来 释放 一 个 磁盘 页 面 的 函数 ^ swap free( )。 通 过 这 个 函数 的 阅读 ， 谈 者 可 以 加 深 对 
上 面 这 一 段 说 明 的 理解 。 此 级 数 的 代码 在 文件 mm/swapfile.e 中 。 而 分 配 磁盘 页 面 的 函数 
__get_swap_page( ) 也 在 同一 文件 中 ， 读 者 不 妨 白 行 园 读 。 
先 来 看 __swap_free( ) 的 开头 几 行 : 


141 /* 

142 * Caller has made sure that the swapdevice corresponding to entry 
143 * is still around or has not been recycled. 

144 */ 

145 void | swap free(swp entry t entry, unsigned short count) 
146 { 

147 struct swap info struct * p; 

148 unsigned long offset, type; 

149 

150 if (lentry. val) 

151 goto out; 

152 

153 type = SWP TYPE(entry); 

154 if (type >= nr swapfiles) 

155 goto bad nofile; 


156 p = & swap info[type]: 
157 if (!(p->flags & SWP USED)) 
158 goto bad device; 


如 果 entry.val 为 0, 就 显然 不 需要 做 任何 事 , 因为 在 任何 页 面 父 换 设备 或 文件 中 页 面 0 是 不 用 十 页 
面 交 换 的 。 接 着 , 如 前 所 述 , SWAP. TYPE 所 返回 的 实际 上 是 页 面 交 换 设 备 的 序号 , 即 其 swap info struct 
结构 在 swap_info[ ] 数 组 中 的 下 标 。 所 以 156 行 以 此 为 下 标 从 swap info. ] 中 取得 具体 文件 的 
swap info struct 结构 。 文 件 找到 以 后 ， 下 面 就 来 看 具体 的 页 面 了 : 


159 offset = SWP_OFFSET (entry) ; 
160 if (offset >= p-^max) 


161 goto bad offset; 

162 if (!p-»swap maploffset]) 

163 goto bad free; 

164 swap list lock( ); 

165 if (p prio > swap infolswap list. next]. prio) 
166 swap list.next = type; 

167 swap device lock(p); 

168 if (p-^swap map[offset] < SWAP MAP MAX) | 
169 if (p-^swap maploffset] € count) 

170 goto bad count; 

171 if (!(p->swap_maploffset] -= count)) { 
172 if (offset < p->lowest_bit) 

173 p->lowest_bit = offset; 

174 if (offset > p->highest bit) 

175 p-^highest bit = offset; 
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176 nr swap pages-^*; 
177 } 

178 } 

179 swap_device_unlock (p) ; 
180 swap list unlock( ); 

181 out: 

182 return; 


如 前 所 述 ，oftset 是 页 面 企 文 件 中 的 位 置 ， 当 然 不 能 大 于 文件 本 身 所 提供 的 最 大 值 。 而 
p->swap_map[offset] 是 该 员 徊 的 分 配 ( 和 使用) 计数， 如 为 0 就 表明 尚未 分 配 。 同 时 ， 分 配 计数 也 不 应 人 
T SWAP MAP MAX. 函数 的 调用 参数 count 表示 有 几 个 使 用 者 释放 该 负面 ,所 以 从 计数 中 减 去 count. 
当 计 数 达 到 0 时 ， 这 个 页 面 就 真正 变 成 空 闪 了 。 此 时 ， 如 果 页 面 落 在 当前 可 供 分 配 的 范围 之 外 ， 就 要 
相应 地 调整 这 个 范围 的 边界 lowest_bit 或 highest bit, 同时 ,可 供 分 配 的 盘 上 页面 的 数量 nr. swap. pages 
也 增加 了 上 。 值 得 注意 的 是 ， 释 放 磁 盘 页 面 的 操作 实际 上 并 不 涉及 伐 租 操作 ， 而 只 是 在 内 存 中 “账面 ” 
上 的 操作 ， 表 不 磁盘 上 那个 页 面 的 内 容 已 丝 作废， 所以， 花费 的 代价 是 极 小 的 。 

知道 了 内 核 怎样 管理 内 存 抽 和 面 和 盘 上 页 蚀 以 后 ， 就 可 以 来 看 看 内 存 页 面 的 周转 了 。 当 一 个 内 存 页 
面 空 用 ， 也 就 是 留 在 某 一 个 容 闲 页 和 面 管 埋 区 的 空闲 队 州 中 时 ， 其 page 结构 中 的 计数 count Jy 0, iii TE 
分 配 负 和 面 时 将 其 设置 成 1。 这 是 在 函数 rmqueue( ) 中 通过 set_page_count( ) 设 置 的 ， 我 们 在 前 面 已 经 在 
到 过 。 

所 谓 内 存 页 面 的 周转 有 两 方面 的 意思 。 其 一 是 页 面 的 分 配 、 使 用 和 轩 收 ， 并 不 一 定 涉及 页 面 的 盘 
区 交换 。 其 二 才 是 往 区 人 交换， 而 交换 的 日 的 最 终 也 是 页 面 的 回收 。 并 非 所 有 的 内 存 页 面 都 是 叮 以 交换 
出 去 的 。 事 实 上 ， 只 有 了 映射 公用 广 空 间 的 负面 才 会 被 换 出 ， 击 内 核 ， 即 系统 空间 的 页 而 则 不 在 此 列 。 
这 里 要 说 时下， 在 内 核 中 可 以 访问 所 有 的 物 埋 页 面 ， 换 言 之 所 有 的 物理 页 面 在 系统 空间 中 都 是 有 映 
WS. Brin “HPS”, ERTED :个 进程 的 用 户 空间 中 有 映射 的 页 面 ， 反 之 则 为 (只 能 由 ) 
内 核 使 用 的 页 面 。 

按 页 面 的 内 容 和 性 质 ， 用 户 空 间 的 页 而 有 下 面 几 种 ; 

e 音 通 的 用 户 空间 页 所 ， 包 括 进 程 的 代 色 段 、 数 据 段 、 堆 栈 段 ， 以 及 动态 分 屿 的 “存储 堆 ” 其 

中 有 些 页 面 从 几 户 程序 即 进程 的 角度 看 是 静态 的 〔 如 代码 段 )， 但 从 系统 的 角度 看 仍 是 动态 分 
配 的 。 

e 通过 系统 调用 mmap ) 映 射 公 用 户 空间 的 已 打开 文件 的 内 容 。 

o 进程 间 的 共享 内 存 区 。 

这 些 抽 血 既 涉及 分 配 、 使 用 和 回收 ， 志 涉及 页 面 的 换 出 / PA 

凡是 映射 到 系统 空间 的 负面 都 不 会 被 换 出 ， 但 还 是 可 以 按 使 用 和 周转 的 不 同 而 大 致 上 分 成 儿 类 。 
首先 ， 内 核 代 码 各 内核 小 全 局 量 所 占 的 内 存 页 耐 既 不 需要 经 过 分 配 也 不 会 被 释放 ， 这 部 分 空间 是 静态 
的 。( 相 比 之 下 ， 进 程 的 代码 段 和 全 局 量 都 在 用 户 空间 ， 所 占 的 内 存 页 面 都 是 动态 的 ， 使 用 前 要 经 过 分 
配 ， 最 后 都 会 被 释放 ， 并 且 中 途 可 能 被 换 出 而 回收 后 另行 分 配 ) 

除 此 之 外 ， 内 核 中 使 用 的 内 存 页 而 也 要 经 过 动态 分 本 ， 但 永远 都 保留 企 内 存 中 ， 不 会 被 交换 出 去 。 
此 类 种 驻 内 存 的 页 面 根据 其 内 容 的 性 质 可 以 分 成 两 类 。 

一 类 是 -- 旦 使 用 完毕 便 无 保存 的 价值 ， 所 以 立即 便 可 释放 、 岂 收 。 这 类 页 面 的 周转 很 简单 ， 就 是 
A (OPAC) 一 使 用 一 (释放 ) 一 空闲 。 这 种 用 途 的 内 核 商 面 人 致 上 有 这 样 一 些 ; 

@ 内核 中 通过 kmalloc( ) 或 vmalloc( ) 分 配 、 用 作 某 些 临时 性 使 用 利 为 管 埋 目 的 而 设 的 数据 结构 ， 
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如 vma, area, struct 数据 结构 等 等 。 这 些 数据 结构 一 旦 使 用 完毕 便 无 保存 价值 ， 所 以 让 即便 可 
释放 。 不 过 由 丁 一 个 页 面 中 往往 有 多 个 同 种 数据 结构 ， 所 以 要 到 整个 负面 都 空 闪 时 才能 把 页 
面 释放 。 

@ ”内 核 中 通过 alloc_pages( ) 分 配 ， 用 作 某 些 临 时 性 使 用 和 为 管理 日 的 的 内 存 页 面 ， 如 每 个 进程 
的 系统 堆栈 所 在 的 两 个 页 面 ， 以 及 从 系统 空间 复制 参数 时 使 用 的 页 而 等 千 。 这 些 和 页 面 也 是 一 
也 使 用 完毕 便 无 保存 的 价值 ， 所 以 立即 个 可 释放 。 

另 一 炎 是 虽然 使 用 完毕 了 ， 但 是 其 内 容 仍 有 保存 的 价值 。 只 要 条 件 允 许 ， 把 这 些 和 页面 “ 养 起 来 ” 
也 许可 以 提高 以 后 的 操作 效率 。 这 类 页 面 (或 数据 结构 ) 在 “释放 ”之 后 要 放 入 个 LRU 队列 ， 经 过 一 
段 时 间 的 缓冲 让 其 “老化 ”; 如 果 在 此 期 间 忽 然 又 要 用 到 其 内 容 了 , 便 直 接 将 页 面 连 内 容 分 配给 用户” 
否则 便 继续 老化 ， 直 到 条 件 不 再 允许 时 才 加 以 岂 收 。 这 种 用 途 的 内 核 页 面 大 致 上 有 下 面 这 些 ; 

e 在 文件 系统 把 作 中 用 来 缓冲 存储 一 些 文件 日 孙 结 构 dnetry 的 空间 。 
e 在 文件 系统 操作 中 用 来 缓冲 存储 一 些 inode 结构 的 空间 。 
e 用 于 文件 系统 读 / 写 操作 的 缓冲 | 多。 

这 些 页 面 的 内 容 是 从 文件 系统 中 直接 恋 入 或 经 过 综合 取得 的 ， 释 放 后 立即 回收 另 作 他 用 也 并 大 不 
可 ， 但 是 那样 以 后 要 用 时 就 又 要 付出 代价 了 。 

相 比 之 下 ， 页 面 父 换 是 最 复杂 的 ， 所 以 我 们 将 花 较 大 的 篇 幅 来 介绍 。 

显然 ， 最 简单 的 页 面 交换 策略 就 是 : BORMAN DETAR, JRA F 
读 入 到 分 配 得 到 的 内 存 页 面 中 。 如 果 没 有 空闲 页 面 可 供 分 也， 就 设法 将 一 个 或 几 个 内 人 存 页 面 换 出 到 磁 
盘 上 ， 从 让 腾 出 一 些 内 存 页 而 来 。 但 总， 这 种 完全 消极 的 页 面 交 换 策 略 有 个 缺点 ， 就 是 页 面 的 交换 总 
是 “临阵 磨 枪 ” 发 生 在 系统 忙碌 的 时 候 而 没有 调度 的 余地 。 比 较 税 极 的 办 法 足 定 期 地 ， 有 最 好 是 在 系统 
相对 空闲 时 ， 挑 选 一 些 页 面 预 先 换 出 而 腾 出 一 些 央 存 页 面 ， 从 而 在 系统 中 维持 一 定 的 空 朵 页 面 供应 最 ， 
使 得 在 缺 页 中 断 发 生 时 总 是 有 空闲 内 存 页 面 可 供 分 配 。 至 于 挑选 的 准则 ，…- 般 都 是 LRU， 即 挑选 “最 
近 最 少 用 到 ”的 页 面 。 但 是 ， 这 种 积极 的 页 面 交 换 策 略 实行 起 来 也 有 问题 ， 因 为 实际 上 并 不 存在 -种 
方法 可 以 准确 地 预测 对 外面 的 访问 。 所 以 ， 宕 全 有 可 能 发 生 这 样 的 现象 ， 就 是 一 个 页 面 书 经 好 和 久 没有 
受到 访问 了 ， 但 是 刚 把 它 换 出 到 磁 末 上 ， 却 又 有 访问 了 ， 于 是 只 好 义 赶 快 把 它 换 进 米 。 人 在 最 坏 的 情况 
下 ， 有 可 能 整个 系统 的 处 理 能 力 都 被 这 样 的 换 入 7 换 出 所 饱 利 ， 布 实际 上 根木 不 能 进行 有 效 的 运算 和 
操作 。 有 人 把 此 种 现象 称 为 〈 页 面 的 )“ 抖 动 ”。 

为 了 防止 这 种 情况 的 发 生 ， 可 以 将 页 而 的 换 出 和 内 存 抽 面 的 释放 分 成 两 步 米 做 。 当 系统 挑选 出 各 
干 内 存 页 面 准备 换 出 时 ， 将 这 些 页 面 的 内 容 写 入 相应 的 磁盘 页 面 小 ， 并 且 将 相应 页 所 表 项 的 内 容 改 成 
指向 盘 上 页 面 (P 标志 位 为 0， 表 示 页 和 不 在 内 存 )， 人 和 但 是 所 占据 的 内 存 页 面 却 并 不 立即 释放 ， 而 是 将 
其 page 结构 留 在 一 个 “ 暂 存 “(Ccache) 队列 (或 称 缓冲 队列 ) 中 ， 只 是 使 其 从 “活跃 状态 ” BRAT A 
活跃 状态 ” 就 像 罕 人 从 “现役 ” 转 入 了 “预备 役 ”。 至 于 内 存 页 面 的 “退役 ”， 邮 最 后 释放 ， 则 推迟 到 
以 后 有 条 件 地 进行 。 这 样 ， 如 果 在 一 个 页 面 被 换 出 以 后 立即 又 党 到 访问 而 发 牛 缺 页 异常 ， 就 可 以 从 物 
理 页 面 的 暂 存 队列 中 找 回 相 应 的 页 面 ， 再 次 为 之 建立 上 映射。 出 于 此 负面 尚未 释放， 还 保留 着 其 你 来 的 
内 容 ， 就 不 天 要 从 盘 上 读 入 了 。 反 之， 如 果 经 过 一 段 时 间 以 后 ， 一 个 个 活跃 的 内 存 负 面 ， 即 还 留 在 暂 
存 队列 却 己 不 再 有 (用 户 空 间 ) 上 映射 的 页 面 ， 还 是 没有 受到 访问 ， 奢 就 到 了 最 后 退役 的 时 候 了 。 如 果 留 在 
暂 存 队列 中 的 页 面 义 受到 访问 ， 确 切 地 说 是 发 生 了 以 此 页 面 为 及 标的 页 面 异 常 ， 那 么 只 要 恢复 这 个 页 
面 的 映射 并 使 其 脱离 暂 存 队 刀 就 可 以 了 ， 此 时 该 负面 义 回 介 了 活跃 状态 。 

这 种 策略 显然 可 以 减 小 树 动 的 串 能 ， 并 且 减 少 系统 在 负面 交换 上 的 人 花费 。 串 是 ， 如 昌 更 深入 地 考 
变 这 个 问题 ， 就 可 以 看 出 其 实 还 可 以 改进 。 首 先 ， 在 准备 换 出 一 个 页 面 时 并 不 一 定 要 把 它 的 内 容 写 入 


.72. 


第 2 章 存储 管理 
磁盘 ， 如 时 上 和 目 从 最 近 “次 换 入 该 册 贡 以 后 从 木 写 过 这 个 负 出 ， 那 么 这 个 页 而 是“ 干净 ”的 ， 也 号 是 与 
盘 上 页 向 的 内 容 相 X. RAN MARA SIH. Rx. iE "HEU BN I, 445A 
出 去 ， 而 可 以 先 从 页 面 映 射 表 新 开 ， 经 过 cB "RED" mk “te” Ja SINE, Mita “F 
净 ” 页 面 。 至 于“ 十 净 ” 页 面 ， 则 偿 可 以 继续 缓 神色 真有 必要 时 才 加 以 回收 ， 因 为 回收 一 个 “自净 ” 
页 面 的 花费 是 很 小 的 。 
综 上 所 述 ， 物 理 内 存 页 面 换 入 / 换 出 的 周转 要 点 如 下 : 
(D TZIN. WIRE page 数据 结构 通过 其 队 州 水 结构 list 链 入 某 个 页 面 管理 区 (zone) 的 空 内 区 以 列 
free_area。 页 | 用 的 使 用 计数 count 为 0。 
(2) 分 般 。 通 过 朵 数 __alloc_pages( ) 或 __get_free_page( ) 从 尔 个 空 用 队列 中 分 配 内 存 贝 币 ， 并 将 
所 分 屿 页 面 的 使 用 计数 count 置 成 1， 其 page 数据 结构 的 队列 头 list £534 Bde pA A - 
(3) 活跃 状态 。 页 面 的 page 数据 结构 通过 其 队列 头 结 构 lru 链 入 活跃 页 面 队 列 active list; # HE 
少 有 一 个 进程 的 (用 户 空 间 ) 页 面 表 项 指向 该 页 面 。 每 当 为 页 面 建立 或 恢复 岂 射 时 ， 都 使 页 蚀 
的 使 用 计数 count 加 1。 
(4) 不 活跃 状态 ( 脏 )。 页 面 的 page 数据 结构 通过 其 队 州 头 结 愧 lru 链 入 不 活跃 “用 ”页 面 队 列 
inactive_dirty_list， 介 是 居 则 上 不 乓 有 任何 进程 的 页 面 表 项 指向 该 页 面 。 每 当 断 才 页 面 的 映射 
时 都 使 负 徊 的 使 用 计数 count 减 1. 
(5) 将 不 活跃 “ 脏 ” 页 徊 的 内 容 写 入 变换 设备 ， 并 将 页 面 的 page 数据 结构 从 不 活跃 “ 脏 ” 页 而 队 
列 inactive_dirty_list 转移 公共 个 个 活跃 “十 净 ” 负 向 队列 中 。 
(6) 不 活跃 状态 (干净 )。 页 面 的 page 数据 结构 通过 其 队列 头 结 构 Ira 链 入 其 个 不 活跃 “于 兆 ” 页 
恒 队 人 询 ， 每 个 页 面 管理 区 玫 有 一 个 不 活跃 “干净 ”页 面 队 列 inactive clean list. 

C) 如果 在 转 入 不 活跃 状态 以 后 的 一 段 时 间 内 页 面 受 到 访问 ， 则 又 转 入 活跃 状态 并 恢复 映射 。 

(8)” 当 有 需要 上 时， 说 从 “十 净 ” 页 面 队 全 中国 收 负面， 或 退 同 到 空间 队列 中 ， 或 直接 为 行 分 出 。 

当然 ， 实 际 的 实现 还 要 更 复杂 E, 

A TRAP RIK, Æ page 数据 结构 中 设 喧 了 所 党 的 各 种 成 分 ， 并 在 内 核 中 设置 了 个 局 性 的 
active list FH inactive dirty list j^ LRU 队列 ， 还 在 他 个 负 | 和 管理 区 中 设置 了 一 个 inactive_clean_list。 
根据 页 面 的 page 结构 在 这 些 LRU 队列 中 的 位 置 ， 就 可 以 知道 这 个 页 面 转 入 不 酒 路 状态 后 时 间 的 长 短 ， 
为 同 收 页 面 提 供 参 考 。 同 时 ， 还 通过 一 个 全 局 的 address_space 数据 结构 swapper_space， 把 所 有 可 交换 
内 存 页 面 管理 起 米 ， 每 个 品 父 换 内 存 页 面 的 page 数据 结构 都 通过 其 队列 头 结构 list 链 入 其 中 的 -个 队 
列 。 此 外 ， 为 加 快 在 暂 存 队 记 中 的 搜索 ， 义 设置 了 一 个 杂 恋 表 page_hash_table. 

让 我 们 来 看 看 内 核 症 怎样 将 一 个 内 存 页 面 链 入 这 些 队 州 的 。 内 核 在 为 某 个 需要 换 入 的 页 面 分 般 了 
一 个 空闲 内 存 页 面 以 后 ， 就 通过 add_to_swap_cache( ) 将 其 page 结构 链 入 相应 的 队列 ， 这 个 元 数 的 代码 
Tf. mm/swap_state.c 中 : 


54 void add to swap cache(struct page *page, swp entry t entry) 
5° Y 


56 unsigned long flags; 

57 

58 #ifdef SWAP CACHE INFO 

59 swap cache add totalit; 
60 #endi f 

61 if (!PageLocked (page) ) 


73. 


62 
63 
64 
65 
66 
67 
68 
69 
70 


476 
477 
478 
479 
480 
481 
482 


483 
484 
485 
486 
487 
488 
489 
490 
49] 
492 
493 
494 


365 
366 
367 
368 
369 
370 
371 
372 
373 


j 
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BUG( ) ; 
if (PageTestandSetSwapCache (page) ) 
BUG( ) ; 
if (page—mapping) 
BUG( ) ; 
flags = page flags & "((1 << PG error) | (1 << PG arch 0); 
page->flags = flags | (1 << PG uptodate); 
add to page cache locked(page, &swapper space, entry. val); 


在 调用 这 个 函数 前 要 先 将 页 面 锁 住 ， DASS BI+ UL. ELS EIU SO] SR PA AT, SL PG. swap. cache 
标志 位 必须 为 0， 指 针 mapping 也 必须 为 0。 同 时， 页 而 的 内 容 是 刚 从 变换 设备 谈 入 的 ， 当 然 与 盘 上册 
面 一 致 ， 所 以 把 PG_uptodate 标志 位 设 成 |。 函数 __add_to_page_cache( ) 的 定义 见 mm/filemap.c: 


/* 
* Add a page to the inode page cache. 


} 


* The caller must have locked the page and 
* set all the page flags correctly.. 


void add to page cache locked (struct page * page, 


struct address space *mapping, unsigned long index) 


if (!PageLocked(page)) 
BUG( ) ; 


page cache get (pago) ; 

spin lock(&pagecache lock); 

page->index = index; 

add page to inode queue(mapping, page); 

add page to hash queue(page, page hash(mapping, index)); 
lru cache add(page); 

spin unlock(&pagecache lock); 





调用 参数 mapping 是 一 个 address, space ARET, SLE&swapper space. IPP AGE ESAMI XE XL 
include/linux/fs.h: 


struct address space { 


74. 


struct list head clean pages; /* list of clean pages */ 
struct list head dirty pages; /* list of dirty pages */ 
struct list head locked pages; /* list of locked pages */ 
unsigned long nrpages; /* number of total pages */ 

struct address space operations *a ops; /* methods */ 

struct inode *host ; /* owner: inode, block device */ 
struct vm area struct  *i_mmap; /* list of private mappings */ 


struct vm area struct *i mmap shared; /* list of shared mappings */ 
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374 spiniock t i shared lock; /* and spinlock protecting it */ 
375- J; 


络 构 中 有 三 个 队列 头 ， 前 两 个 分 别 用 于 “于 净 ” 的 和 “ 脏 ” 的 页 面 《 需 要 写 出 )， 另 :个 队列 头 
locked pages 咱 于 需要 暂时 锁定 在 内 存 不 直 换 出 的 和 负面。 数据 结构 swapper space 的 定义 见于 
mm/swap_state.c: 


31 struct address space swapper_space = { 

32 LIST HEAD INIT (swapper_space. clean pages), 
33 LIST HEAD INIT(swapper. space. dirty pages), 
34 LIST HEAD TNIT(swapper space. locked pages), 
35 0, /* nrpages */ 

36 &swap aops, 

37. 


结构 中 的 最 后 一 个 成 分 指向 吃 个 数据 结构 swap_aops， 里 面包 含 了 各 种 swap 操作 的 函数 指针 。 

A3 add_to_page_cache_locked( ) 中 可 以 看 到 , 页 面 page 被 加 入 到 三 个 队列 中 。 下 面 读者 会 看 到 ， 
page 结构 通过 其 队列 头 list 链 入 暂 存 队列 swapper_space， 通 过 指针 next hash 和 双重 指针 pprev_hash 
链 入 某 个 杂凑 队列 ， 并 通过 其 队列 头 Iru 链 入 LRU 队列 active list. 

代码 中 的 page_cache_get( )7E pagemap.h 中 定义 为 get_page(page)， 实 际 上 只 是 将 页 面 的 使 用 计数 
page->count 加 1。 这 是 在 include/linux/mm.h 中 定义 的 : 


150 #define get page(p) atomic inc(&(p)-^count) 
3l #define page cache get(x) get page(x) 


先 将 给 定 的 page 结构 通过 add. page to. inode quene( ) 加 入 到 swapper. space 中 的 clean, pages 队列 ， 
其 代码 在 include/linux/pagemap.h H: 


72 static inline void add page to inode queue (struct address space *mapping, 
struct page * page) 

ig: d 

74 struct list head *head = &mapping-?clean pages; 

15 

76 mapping-?nrpages-**; 

77 list_add(&page->list, head); 

78 page->mapping = mapping; 

79} 


可 见 ， 链 入 的 是 swapper_space '|'j clean pages 队列 ， 刚 从 交换 设备 读 入 的 页 面 当然 是 “干净 ” 
页 面 。 为 佬 么 这 个 函数 叫 add_page_to_inode_queue 呢 ? 这 是 因为 页 面 的 缓冲 不 光 是 为 页 面 交换 而 设 的 ， 
文件 的 读 / 与 也 要 用 到 这 种 绥 冲 机 制 。 通 常 来 自 同 一 个 文件 的 页 面 就 通过 一 个 address. space 数据 结构 
来 管理 ， 而 代表 着 个 文件 的 inode 数据 结构 中 有 个 成 分 1 data， 那 就 是 :个 address_space 数据 结构 。 
从 这 个 意义 上 说 ， 用 来 管理 可 交换 页 面 的 address. space 数据 结构 swapper space 只 是 个 特例 。 

然后 通过 add page to hash quene( ) 将 其 链 入 到 某 个 杂凑 队列 中 ， 其 代码 也 在 mm/filemap.c P: 
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58 static void add page to hash queue (struct page * page, struct page **p) 
59 { 


60 struct pago *next = *p; 

61 

62 *p = page; 

63 page->next_hash = next; 

64 page->pprev_hash = p; 

65 if (next) 

66 next-—>pprev_hash = &page-»next hash; 
67 if (page-—>buffers) 

68 PAGE BUG (page) ; 

69 atomic inc(&page cache size); 
70 | 


链 入 的 具体 队列 取决 于 杂凑 值 : 


Hdefine page hash(mapping, index) \ 
(page hash table + page hashfn (mapping, index) ) 


最 后 将 页 面 的 page 数据 结构 通过 Iru_cache_add( ) 链 入 到 内 核 中 的 LRU 队列 active list 中 ,其 代码 
在 mm/swap.c 中 : 


226 [ek 

221 * lru cache add: add a page to the page lists 
228 * Gpage: the page to add 

229 */ 

230 void lru_cache_add (struct page * page) 
231 { 

232 spin_lock (&pagemap_lru_lock) ; 

233 if (!PageLocked (page) ) 

234 BUG ( ) ; 

235 DEBUG_ADD_PAGE 

236 add page to active list (page) ; 

237 /* This should be relatively rare */ 
238 if (!page-^age) 

239 deactivate page nolock(page); 
240 spin unlock(&pagemap lru lock); 

241 } 


这 里 的 add_page_to_active_list( ) 是 个 宏 操 作 ， 定 义 丁 include/linux/swap.h A: 


209 Hdefine add page to active list (page) | \ 


210 DEBUG ADD PAGE \ 

211 ZERO PAGE BUG V 

212 SetPageActive(page); \ 

213 list add(&(page)-^lru, &active list); \ 
214 nr active pagest^; \ 
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li T page 数据 结构 可 以 通过 其 同一 个 队列 头 结构 ru 链 入 不 同 的 LRU BA], AMARRA 
PG active. PG inactive dirty 以 及 PG. inactive clean 等 林 志 位 来 表明 目前 症 在 哪 PS BASIE. DUE 
者 将 看 到 负面 在 这 些 队列 间 的 转移 。 


存储 管理 不 完全 是 内 核 的 事 ， 用 户 进程 可 以 在 相当 程度 上 参与 对 内 存 的 管理 ， 可 以 在 一 定 的 范围 
内 对 于 其 本 身 的 内 存 管理 向 内 核 提 出 一 些 要 求 , 例如 通过 系统 调用 mmap( ) 将 一 文件 映射 到 它 的 用 户 罕 
间 。 特 别 是 特权 用 户 进程 ， 还 掌握 着 对 换 入 / 换 出 机 制 的 全 局 性 控制 权 ， 这 束 是 系统 调用 swapon( MH 
swapoff( )。 调 用 界面 为 : 


swapon(const char *path, int swapflags) 
swapoff (const char *path) 


XX Pj 8 St US Ae a A EREN, A APRS RE E A BSCR F 98 TELS 
RARE. SARE ASC AS SA RER, ES A (c $8 Be SR 
保护 。 在 实践 中 ， 这 样 做 有 时 候 是 必要 的 。 一 些 “ 奶 入 式 ” 系 统 ， 和 常用 Flash Memory (WE) 来 代 
蔡 做 盘 介 质 。 对 Flash Memory 的 写 操作 是 很 麻烦 费时 的 ， 需 要 将 存储 器 中 的 内 容 先 抹 去 ， 然 后 才 写 入 ， 
而 抹 去 的 过 程 又 很 慢 〈 与 磁盘 读 写 相 比 较 )。 显 然 ，Flash Memory 是 不 适合 川 作 页 { 身 交 换 的 。 所 以 在 这 
样 的 系统 中 应 将 盘 区 交换 关闭 。 事 实 上， 在 Linux 内 核 刚 引导 进来 之 初 ， 所 有 的 页 面 交 换 部 是 关闭 的 ， 
内 核 在 初始 化 期 间 要 执行 /etc/re.dirc.S 命令 文件 , 而 这 个 义 件 中 的 命令 行 之 就 古 与 系统 调用 swaponc ) 
相应 的 实用 程序 swapon。 只 要 把 这 命令 行 从 文件 中 拿 掉 就 没有 页 面 交换 了。 

此 外 ， 还 有 儿 个 用 于 共享 内 存 的 系统 调用 ， 也 是 与 存储 管理 有 关 的 。 由 于 习惯 上 将 共享 内 存 蚊 入 
进程 间 通 讯 的 范畴 ， 对 这 儿 个 系统 调用 将 在 进程 问 通讯 一 章 中 即行 介绍 。 


2.7 物理 页 面 的 分 配 


b—inpÉéspyue Seas TAC RN, HT DMA 的 内 在 页 面 必须 是 连续 的 。 其 实 ， 
为 使 十 管理， 特别 是 出 十 对 物理 存储 空间 “质地 ”一 ' 致 性 的 考虑 ， 即 使 不 是 用 于 DMA 的 内 存 贝 面 也 
是 连续 分 配 的 。 

当 一 个 进程 需要 分 配 若 干 连续 的 物理 页 和 几时， 可 以 通过 alloc_pages( ) 来 完成 。Linux 内 核 2.4.0 版 
的 代码 中 有 两 个 alloc_pages( ), 一 个 全 mm/numa.c F, 3y AE mm/page_alloc.c 中 ， 编 译 时 根据 所 定 
义 的 条 件 编 译 选 择 项 CONFIG_DISCONTIGMEM 决定 取 含 。 为 什么 呢 ? 这 就 是 出 于 条 一 节 中 所 述 对 物 
理 存 储 空 间 “ 质 了 地” - 致 性 的 考虑 。 

我 们 先 来 看 用 于 NUMA 结构 的 alloc_pages( )， 其 代码 在 mm/numa.c 中 : 


43 &ifdef CONFIG DISCONTIGMEM 


9] /* 
92 * This can be refined. Currently, tries to do round robin, instead 
93 * should do concentratic circle search, starting from current node. 


77 . 
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94 */ 
95 struct page * alloc_pages(int gfp mask, unsigned long order) 
96 { 


97 struct page *ret = 0; 

98 pg data t *start, *temp; 

99 #ifndef CONFIG NUMA 

100 unsigned long flags; 

101 static pg data t *next = 0; 

102 &Sendif 

103 

104 if (order »- MAX ORDER) 

105 return NULL; 

106 #ifdef CONFIG NUMA 

107 temp = NODE DATA(numa node id( )); 
108 Helse 

109 spin lock irqsave(&node lock, flags); 
110 if (!next) next = pgdat list; 

111 temp = next; 

112 next = next-?node next; 

113 spin unlock irqrestore(&node lock, flags); 
114 H#endif 

115 start = temp; 

116 while (temp) { 

117 if ((ret = alloc pages pgdat(temp, gfp mask, order))) 
118 return(ret); 

119 temp = temp-»node next; 

120 } 

121 temp = pgdat list; 

122 while (temp != start) { 

123 if ((ret = alloc pages pgdat (temp, gfp mask, order))) 
124 return (ret): 

125 temp = temp-?node next; 

126 j 

127 return (0); 

128} 


首先 ， 对 NUMA 的 支持 是 通过 条 件 编 详 作 为 可 选项 提供 的 ， 所 以 这 段 代码 仅 在 可 选项 
CONFIG_DISCONTIGMEM 有 定义 时 才 得 到 编译 。 个 过 ， 这 里 用 来 作为 条 件 的 是 “不 连续 存储 空间 ”， 
而 不 是 CONFIG_NUMA。 其 实 ， 不 连续 的 物理 存储 空间 是 一 种 广义 的 NUMA， 因 为 那 说 明 在 最 低 物 理 
地 址 和 最 高 物理 地 址 之 间 存 在 着 空洞 ， 而 有 空洞 的 空间 当然 是 韭 均 质 的 。 所 以 在 地 址 不 连续 的 物理 空 
间 也 要 像 在 质地 不 均匀 的 物理 空间 那样 划分 出 若 十 连续 〈 而 且 均 匀 ) 的 “节点 ” 所 以 ， 存 存储 空间 不 
连续 的 系统 中 ， 每 个 模块 都 有 个 若干 个 节点 ， 因 而 都 有 个 pg_data_t 数据 结构 的 队列 。 

调用 时 有 两 个 参数 。 第 -个 参数 gfp_mask 是 个 整数 , 表示 采用 哪 一 种 分 配 策略 ; 第 二 个 参数 order 
表示 所 需 的 物理 块 大 小 ， 可 以 是 1、2、4、…、 直 到 2MAX-ORDER 个 页 面 。 

在 NUMA 结构 的 系统 中 , 可 以 通过 宏 操 作 NUMA_DATA 和 numa_node_id( ) 找 到 CPU 所 在 节点 的 
pg data t 数据 结构 队列 。 而 在 不 连续 的 UMA 结构 中 ， 则 也 有 个 pg_data_t 数据 结构 的 队列 pgdat list. 


(8 ， 
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分 配 时 轮流 从 各 个 节点 开始 ， 以 求 各 节点 负荷 的 平衡 。 


函数 中 让 此 的 操作 在 于 两 个 while 循环 ， 它 们 分 两 截 《〈 先 是 从 temp 开始 到 队列 的 术 尾 ， 然 后 回头 


从 第 一 个 节点 到 最 初 开 始 的 地 方 ) 扫描 队列 中 所 有 的 节点 ， 直 至 在 某 个 节点 内 分 配 成 功 ， 或 御 底 失败 
而 返回 0。 对 于 每 个 节点 , 调用 alloc_pages_pgdat( iA PAS ACA m AY UL IRI, 这 个 区 数 的 代码 在 mm/numa.c 


m: 


85 
86 
87 
88 
89 


static struct page * alloc pages pgdat (pg data t *pgdat, int gfp mask, 
unsigned long order) 
{ 


return alloc pages(pgdat->node_zonelists + gfp mask, order); 


} 


可 见 ， 参 数 gfp_mask 在 这 里 用 作 给 定 节点 中 数组 node_zonelists[ JA Fin, ER TER 2) ACRE. 


把 这 段 代 码 与 下 面 用 于 连续 空间 UMA 结构 的 alloc pages( ) 对 照 一 下 ， 就 可 以 看 出 区 别 : 在 连续 空间 
UMA 结构 中 只 有 一 个 节点 contig_page_data, 而 在 NUMA 结构 或 不 连续 空间 UMA 结构 中 中 则 有 多 个 。 


343 
344 
345 
346 
347 
348 
349 
350 
351 


352 


连续 空间 UMA 结构 的 alloc_pages( ) 是 在 文件 mm/page. alloc.c 中 定义 的 : 


#ifndef CONFIG DISCONTIGMEM 
static inline struct page * alloc_pages (int gfp mask, unsigned long order) 
{ 

/* 

* Gets optimized away by the compiler. 

*/ 

if (order »- MAX ORDER) 

return NULL; 
return alloc pages(contig page. data. node zonelists*(gfp mask), 
order) ; 


} 


与 NUMA 结构 的 alloc_pages( ) 相 反 ， 这 个 函数 仅 在 CONFIG_DISCONTIGMEM 无 定义 时 才 得 到 


编 详 。 所 以 这 上 时 个 同名 的 邑 数 只 有 一 个 会 得 到 编 详 。 


具体 的 页 面 分 配 由 前 数 _alloc_pages( ) 完 成 ， 其 代 但 在 mm/page_alloc.c 中 ， 我 们 分 段 阅 读 : 


[alloc_pages()> __alloc_pages( )] 


270 
271 
212 
273 
274 
275 
276 
277 
278 
279 


/* 

* This is the 'heart' of the zoned buddy allocator: 

*/ 

struct page * alloc pages (zonelist t *zonelist, unsigned long order) 
{ 


zone ft **zone; 

int direct reclaim = 0; 

unsigned int gfp mask = zonelist-?gfp mask; 
struct page * page; 
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280 /* 

281 * Allocations put pressure on the VM subsystem. 

282 */ 

283 memory pressurett; 

284 

285 /水 

286 * (If anyone calls gfp from interrupts nonatomically then it 
287 * will sooner or later tripped up by a schedule( ).) 

288 * 

280 * We are falling back to lower-level zones if allocation 
290 * in a higher zone fails. 

291 */ 

292 

293 /* 

294 * Can we take pages directly from the inactive clean 

295 * list? 

296 */ 

297 if (order == 0 && (gfp mask & | GFP WAIT) && 

298 !(current->flags & PF MEMALLOC) ) 

299 direct reclaim = 1; 

300 

301 /* 

302 * If we are about to get low on free pages and we also have 
303 * an inactive page shortage, wake up kswapd. 

304 */ 

305 if (inactive shortage( ) > inactive target / 2 && free shortage( )) 
306 wakeup_kswapd (0) ; 

307 /* 

308 * If we are about to get low on free pages and cleaning 

309 * the inactive dirty pages would fix the situation, 

310 * wake up bdflush. 

311 */ 

312 else if (free shortage( ) && nr inactive dirty pages > free_shortage( ) 
313 && nr_inactive_dirty_pages >= freepages. high) 

314 wakeup bdflush(0); 

315 


调用 时 有 两 个 参数 。 第 -个 参数 zonelist 指 章 代表 独 “个 其 体 分 配 策略 的 zonelist_t 数据 结构 。 另 
个 参数 order W H Bi [fr alloc_pages( ) 中 的 相同 。 全 局 量 memory. pressure 衣 示 内 存 页 面 管理 所 受 的 压 
力 ， 分 配 内 存 页 血 时 递增 ， 归 还 时 则 递减 。 这 里 的 局 部 量 gfp mask K HIKER AE E R 
构 ， 是 一 些 用 十 控制 日 的 的 标志 位 。 如 果 要 求 分 上 也 的 只 是 单个 页 面 ， 而 且 要 等 待 分 配 完 成 ， 义 不是 用 
于 管理 月 的 ， 则 把 一 个 局 部 量 direct reclaim 设 成 1， 表示 可 以 从 相应 页 面 管 理 区 的 “不 活跃 于 净 页 面 ” 
缓冲 队列 中 回收 。 这 些 页 面 的 内 容 都 已 写 出 至 页 面 人 交换 设备 或 文件 中 ， 只 是 还 保存 着 页 面 的 内 容 ， 使 
得 在 需要 这 个 页 面 的 内 容 时 无 需 再 从 设备 或 文件 读 入 ， 但 是 当空 闲 页 面 短缺 时 ， 就 顾 不 得 那么 多 了 。 
由 于 一 般 而 言 这 些 页 面 不 一 定 能 像 真 正 的 空闲 页 而 那样 连 成 块 ， 所 以 仅 华 要 求 分 配 单个 页 面 时 才能 从 
这 些 页 面 中 国 收 。 此 外 ， 当 发 现 可 分 配 页 面 短 缺 时 ， 还 要 唤醒 kswapd 和 bdflush 两 个 内 核 线程 ， 证 它 
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[alloc_pages( ) ». | alloc pages( )] 


316 try again: 


317 /* 

318 * First, see if we have any zones with lots of free memory. 
319 * 

320 * We allocate free memory first because it doesn’t contain 
321 * any data ... DUH! 

322 */ 

323 zone = zonelist-?zones; 

324 for Ou 

325 zone t *z = *(zone4*); 

326 if oz) 

321 break; 

328 if (!z-^size) 

329 BUG( ) ; 

330 

331 if (z— free pages >= z-^»pages low) { 

332 page = rmqueue(z, order); 

333 if (page) 

334 return page; 

335 } else if (z-^free pages < z—>pages min && 

336 waitqueue active(&kreclaimd wait)) { 
337 wake up interruptible(&kreclaimd wait); 
338 ! 

339 } 

340 


这 是 对 一 个 分 配 策 路 中 所 规定 的 所 有 页 面 管理 | 多 的 循环 。 循 环 中 依次 考察 各 个 管理 区 中 空闲 页 面 
的 总 量 ， 如 果 总 量 尚 在 “ 低 水 位 ”以 上 ， 就 通过 rmqueue( ) 试 图 从 该 管理 区 中 分 配 。 要 是 发 现 管理 区 中 
的 空 闪 页 面 总 量 己 经 降 到 了 最 低 点 ， 而 且 有 进程 (实际 上 只 能 是 内 核 线 程 kreclaimd ) 在 一 个 等 待 队列 
kreclaimd_wait 中 睡眠 ， 就 把 它 唤醒 ， 让 它 帮助 回收 一 些 页 面 备用 。 函 数 rmqueue( ) 试 图 从 一 个 页 面 管 
理 区 分 配 若 干 连续 的 内 存 页 面 ， 其 代码 在 mm/page. alloc.c FP: 


lalloc_pages( ) » alloc. pages( ) > rmqueue( )] 


172 static struct page * rmqueue(zone t *zone, unsigned long order) 


Hé. 4 

174 free area t * area = zone->free area + order; 
175 unsigned long curr order - order; 

176 struct list head *head, *curr; 

171 unsigned long flags; 

178 struct page *page; 

179 

180 spin_lock_irqsave (&zone->lock, flags); 
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181 do { 

182 head = &area-^free list; 

183 curr = memlist_next (head) ; 

184 

185 if (curr !- head) { 

186 unsigned int index; 

187 

188 page = memlist entry(curr, struct page, list): 
189 if (BAD_RANGE (zone, page) ) 

190 BUG( ) ; 

191 memlist del(curr); 

192 index = (page - mem map) - zone-»offset; 
193 MARK USED(index, curr order, area): 

194 zone—2free pages -= 1 << order; 

195 

196 page = expand(zone, page, index, order, curr order, area); 
197 spin unlock irqrestore(&zone-^lock, flags): 
198 

199 set page count(page, 1); 

200 if (BAD RANGE (zone, page) ) 

201 BUG( ) ; 

202 DEBUG ADD PAGE 

203 return page; 

204 } 

205 curr_order++: 

206 areatt; 

207 } while (curr_order < MAX ORDER); 

208 spin_unlock_irqrestore (&zone->lock, flags); 

209 

210 return NULL; 

211 } 


以 前 讲 过 ， 代 表 物 理 页 面 的 page 数据 结构 ， 以 双向 链 的 形式 链接 在 管理 区 的 某 个 空闲 队列 中 。 分 
配 上 页面 时 当然 归 把 它 从 队列 中 摘 链 ， 而 摘 链 的 过 程 是 不 容许 其 他 的 进程 、 其 他 的 处 理 器 〈 如 果 有 的 话 ) 
来 打扰 的 。 所 以 要 用 spin lock irqsave( ) 将 相应 的 分 区 加 上 锁 ， 不 容许 打扰 。 管 理 区 结构 中 的 空闲 区 
zone->free_area 是 个 结构 数组 ， 所 以 zone->free_area +order 就 指向 链接 所 需 大 小 的 物理 内 存 块 的 队列 
头 。 主 要 的 操作 是 在 一 个 do while 循 坏 中 进行 。 它 首先 在 恰好 满足 大 小 此 求 的 队列 里 分 配 ， 如 果 不 行 
的 话 就 试 试 更 大 的 〈 指 物理 内 存 块 ) 队 列 中 分 配 ， 成 功 的 话 ， 就 把 分 配 到 的 大 块 中 剩余 的 部 分 分 解 成 
小 块 而 链 入 相应 的 队列 (通过 196 行 的 expand( )). 

第 188 行 中 的 memlist_entry( ) 从 一 个 非 空 的 队列 里 取 第 个 结构 page 元素 ,然后 道 过 memlist_del( ) 
将 其 从 队列 中 摘除 。 对 此 ， 我 们 已 在 第 1 章 中 作 过 解释 。 

PR expand( ) 是 和 在 同一 文件 (mnmypage_alloc.c) 中 定义 的 : 


[alloc pages( ) > __alloc_pages( ) > rmqueue( ) > expand( )] 


150 static inline struct page * expand (zone t *«one, struct page *page, 
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151 unsigned long index, int low, int high, free area t * area) 
152. { 

153 unsigned long size = 1 << high; 

154 

155 while (high > low) { 

156 if (BAD RANGE (zone, page) ) 

I57 BUG( ) ; 

158 area--; 

159 high--; 

160 size >>= l; 

161 memlist add head(&(page) »list, &(area) >free list); 
162 MARK USED(index, high, area); 

163 index += size; 

164 page += size; 

165 } 

166 if (BAD_RANGE (zone, page) ) 

167 BUG( ) ; 

168 return page; 

169} 


调用 参数 表 中 的 low 对 应 于 表示 所 需 物理 块 大 小 的 order, 而 high WAA T 37m 25 Bil EP BA St 
就 是 从 中 得 到 能 满足 要 求 的 物理 块 的 队列 》 的 curr_order。 当 两 者 相符 时 ， 从 155 行 开 始 的 while 循环 
就 被 跳 过 了 。 若 是 分 配 到 的 物理 块 大 于 所 需 的 大 小 《不 可 能 小 于 所 赶 的 大 小 ?， 那 就 将 该 物理 块 链 入 低 
一 档 也 就 是 物理 块 大 小 减 半 的 空闲 块 队列 中 去 ， 并 相应 设置 该 空 用 区 队列 的 位 图 ， 这 是 在 第 158 行 至 
162 行 中 完成 的 。 然 后 从 该 物理 块 中 切 去 : 半 ， 而 以 其 后 半 部 作为 “个 新 的 物理 块 (第 163 和 164 行 )， 
而 后 开始 下 - 轮 循 环 也 就 是 处 理 更 低档 的 空闲 块 队列 。 这 样 ， 最 后 必 有 high 与 low WATE, tE 
就 是 实际 剩 下 的 物理 块 与 要 求 恰 好 相符 的 时 候 ， 循 环 就 结束 了 。 

就 这 样 , rmqueue( ) 一 直 往 上 扫描 , 直人 成功 或 者 最 终 失 败 。 如果 rmqueue( ) 失 败 , 则 __alloc_pages( ) 
通过 其 for 循环 降格 以 求 ， 接 着 试 分 配 策略 中 规定 的 卜 一 个 管理 区 ， 直到 成 功 , 或 者 碰 到 了 空 指针 和 而 最 
终 失 败 ( 见 327 行 )。 旭 果 分 配 成 功 了 ， 则 __alloc_pages( ) 返 问 一 个 page 结构 指针 ， 指 向 页 面 块 中 第 一 
个 页 面 的 page 结构 ， 并 且 该 page 结构 中 的 使 用 计数 count 为 1。 如 果 每 次 分 配 的 都 是 单个 的 页 | 和 (order 
为 0)， 则 白 然 每 个 页 面 的 使 用 计数 都 是 1。 

要 是 给 定 分 配 策 略 中 所 有 的 页 友和 管理 区 部 失败 了 ， 那 束 只 好 “加 大 力 虐 ”再 试 ， 越 降低 对 负面 
管理 区 中 保持 “水 位 ”的 要 求 ， .是 把 缓冲 在 管理 区 中 的 “不 洒 跃 干 兆 负 血 ” 也 考虑 进去 。 我 们 再 往 
下 看 __alloc_pages( ) 的 代码 (mm/page_alloc.c)。 


[alloc_pages( ) > | alloc_pages( )] 


341 /* 

342 * Try to allocate a page from a zone with a HIGH 
343 * amount of free + inactive clean pages. 

344 * 

345 * [f there is a lot of activity, inactive target 
346 * will be high and we' 11 have a good chance of 
347 * finding a page using the HIGH limit. 
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348 */ 

349 page = __alloc_pages_limit(zonelist, order, PAGES HIGH, direct reclaim); 
350 if (page) 

351 return page; 

352 

353 /* 

354 * Then try to allocate a page from a zone with more 

355 * than zone->pages low free + inactive clean pages. 

356 * 

397 * When the working set is very large and VM activity 

358 * is low, we re most likely to have our allocation 

359 * succeed here. 

360 */ 

361 page = alloc pages limit(zonelist, order, PAGES LOW, direct reclaim); 
362 if (page) 

363 return page; 

364 


这 里 先 以 参数 PAGES HIGH iH  alloc pages limit( ); 如 果 还 不 行 就 再 加 大 力度 ， 改 以 
PAGES LOW 再 调用 一 次 。 函 数 __alloc_pages_limit( ) 的 代码 也 在 mm/page_alloc.c P: 


[alloc pages( )> __alloc_pages( ) > __ alloc_pages_limit( )] 


213 #define PAGES MIN 0 
214 #define PAGES LOW 1 
215 #define PAGES_HIGH 2 
216 

217 /* 


218 * This function does the dirty work for __alloc_pages 
219 * and is separated out to keep the code size smaller. 
220 * (suggested by Davem at 1:30 AM, typed by Rik at 6 AM) 


221 */ 

222 static struct page * __alloc pages limit (zonelist t *zonelist, 
223 unsigned long order, int limit, int direct reclaim) 
224 { 

225 zone t **zone = zonelist—>zones; 

226 

227 for sjef 

228 zone 1 *z = *(zone*-); 

229 unsigned long water mark; 

230 

231 if (tz) 

232 break; 

233 if (!z->size) 

234 BUG( ) ; 

235 

236 /* 
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247 * We allocate 1f the number of free + inactive clean 
238 * pages is above the watermark. 


239 */ 

240 switch (limit) { 

241 default: 

242 case PAGES MIN: 

243 water mark = z—>pages_min; 

244 break; 

245 case PAGES LOW: 

246 water mark = z-?»pages low; 

247 break; 

248 case PAGES HIGH: 

249 water mark = z-^pages high; 

200 } 

201 

252 if (z->free pages + z—>inactive clean pages > water mark) | 
253 struct page *page = NULL; 

254 /* Tf possible, reclaim a page directly. */ 
255 if (direct reclaim && z—>free pages < z-Ppages min + 8) 
256 page = reclaim page(z); 

251 /* Tf that fails, fall back to rmqueue. */ 
258 if (page) 

259 page = rmqueue(z, order): 

260 if (page) 

261 return page; 

262 } 

203. ] 

264 


265 /* Found nothing. */ 
266 return NULL: 
267 | 


XS eh Be CES S HUI ^ aloc pages( ) 中 的 for AERE FAA TI, RADE ae 
其 中 reclaim_page( ) 从 页 面 管理 区 的 inactive, clean list BAM PLM Al, 其 代码 在 mm/vmscan.c H, X 
们 把 它 询 出 在 “页 胡 的 定期 换 出 ”- 节 的 本 尾 ， 谈 者 可 以 在 党 习 了 页 面 的 换 入 和 换 出 以 后 自己 疯 读 。 
注意 调用 这 个 函数 的 条 件 趾 参数 direct_reclaim 非 0， 所 以 更 求 分 配 的 一 定 是 单个 页 面 。 

还 是 不 行 的 话 ， 那 就 说 明 这 些 管理 区 中 的 真 血 已 经 产 重 短缺 了 了， 让 我 们 看 看 __alloc_pages( ) 是 如 
何 对 付 的 : 


[alloc pages( ) > __alloc_pages( )] 


365 /* 

366 * OK, none of the zones on our zonclist has lots 
367 * of pages free. 

368 * 

369 * We wake up kswapd, in the hope that kswapd will 
310 * resolve this situation before memory gets tight. 
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371 * 

372 * We also yield the CPU, because that: 

373 * — gives kswapd a chance to do something 

374 * — slows down allocations, in particular the 

375 * allocations from the fast allocator that's 

376 * causing the problems ... 

377 * — .., which minimises the impact the "bad guys” 
378 * have on the rest of the system 

379 * - if we don t have GFP IO set, kswapd may be 
380 * able to free some memory we can t free ourselves 
381 */ 

382 wakeup kswapd (0); 

383 if (gfp mask & | GFP WAIT) { 

384 — Set current state(TASK RUNNING) ; 

385 current-?policy |= SCHED YIELD; 

386 schedule( ); 

387 } 

388 

389 /* 

390 * After waking up kswapd, we try to allocate a page 
391 * from any zone which isn’t critical yet. 

392 * 

393 * Kswapd should, in most situations, bring the situation 
394 * back to normal in no time. 

395 */ 

396 page =  alloc pages limit(zonelist, order, PAGES MIN, direct reclaim); 
397 if (page) 

398 return page; 

399 


首先 是 唤醒 内 核 线程 kswapd， 让 它 设 法 换 出 一 些 页 面 。 如 果 分 配 策略 表明 对 于 要 求 分 配 的 页 面 是 
志 企 必得 ,分 配 不 到 时 宁可 等 待 ， 就 让 系统 来 一 次 调度 ， 并 且 让 当前 进程 为 其 他 进程 让 一 下 路 。 这 样 ， 
来 让 kswapd 有 可 能 立即 被 调度 运行 ， 二 米 其 他 进程 也 有 可 能 会 释放 出 -- 些 页 面 ， 再 说 也 可 减缓 了 要 
求 分 配 页 而 的 速度 ， 减 轻 了 压力 。 当 请 求 分 配 页 面 的 进程 峙 次 被 调度 运行 时 ， 或 者 分 配 策略 表明 不 多 
许 等 待 时 ， 就 以 参数 PAGES MIN 上 再 调用 -次 __alloc_pages_limit( )。 可 是 ， 要 是 再 失败 呢 ? 这 时 候 就 
要 看 是 谁 在 有 要求 分 配 内 存 页 面 了 。 如 果 要 求 分 配 页 而 的 进程 (或 线程 ) 是 kswapd 或 kreclaimd， 本 身 就 是 
“内 存 分 配 工作 者 ”， 要 求 分 配 内 存 页 面 的 站 的 是 执行 公务 ， 是 要 更 好 地 分 配 内 存 页 面 ， 这 当然 比 一 般 
的 进程 更 重 上 装 。 这 些 进 程 的 task struct 结构 中 flags 字段 的 PF_MEMALLOC 标志 位 为 1。 我 们 先 看 对 
于 一 般 进 程 ， 即 PF MEMALLOC 标志 位 为 0 的 进程 的 对 策 。 


[alloc_pages( ) > __alloc_pages( )] 


400 /* 

401 * Damn, we didn t succeed. 

402 * 

403 * This can be due to 2 reasons: 
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404 * - we re doing a higher-order allocation 

405 * -> move pages to the free list until we succeed 

406 * — we re /really/ tight on memory 

407 x -—-» wait on the kswapd waitqueue until memory is freed 
408 */ 

409 if (!(current-^flags & PF MEMALLOC)) { 

410 /* 

411 * Áre we dealing with a higher order allocation? 

412 * 

413 * Move pages from the inactive clean to the free list 
414 * in the hope of creating a large, physically contiguous 
415 * piece of free memory. 

416 */ 

417 if (order > 0 && (gfp mask & GFP WAIT)) { 

418 zone = zonelist-^zones; 

419 /* First, clean some dirty pages. */ 

420 current flags |= PF MEMALLOC; 

421 page launder(gfp mask, 1); 

422 current-^flags &- "PF MEMALLOC; 

423 Porc 

424 zone t *z = *(zonett); 

425 if (!z) 

426 break; 

421 if (!z-^size) 

428 continue; 

429 while (z-^inactive clean pages) { 

430 struct page * page; 

431 /* Move one page to the free list. */ 

432 page = reclaim page(z); 

433 if (!page) 

434 break; 

435 . free page(page); 

436 /* Try if the allocation succeeds. */ 

437 page = rmqueue(z, order); 

438 if (page) 

439 relurn page; 

440 } 

A4 } 

442 j 

443 /* 

444 * When we arrive here, we are really tight on memory. 
445 * 

446 * We wake up kswapd and sleep until kswapd wakes us 
447 * up again. After that we loop back to the start. 

448 * 

449 * We have to do this because something else might eat 
450 * the memory kswapd frees for us and we need to be 
45] * reliable. Note that we don't loop back for higher 
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452 * order allocations since it is possible that kswapd 

453 * simply cannot free a large enough contiguous area 

454 * of memory *ever*, 

455 */ 

456 if ((gfp mask & (__GFP WAIT: GFP I0)) == ( GFP WAIT| GFP IO)) { 
457 wakeup _kswapd (1) ; 

458 memory pressure-t*; 

459 if (lorder) 

460 goto try again; 

461 /* 

462 * If _ GFP IO isn’t set, we can t wait on kswapd because 
463 * kswapd just might need some TO locks /we/ are holding ... 
464 * 

465 * SUBTLE: The scheduling point above makes sure that 

466 * kswapd does get the chance to free memory we can t 

467 * free ourselves... 

468 */ 

469 } else if (gfp mask & | GFP. WAIT) { 

410 iry to free pages(gfp mask) ; 

411 memory pressure-**; 

412 if (order) 

473 goto try_again; 

474 } 

475 

476 } 

477 


4r Bic P HRKANJE a P8; WA, P REE AL SEE BAAD, 另 
种 是 总 量 其实 还 不 少 ， 但 是 所 要 求 的 页 所 块 大 小 却 不 能 满足 ， 此 时 往往 有 不 少 单个 的 页 面 在 管理 区 的 
inactive clean pages 队列 中 ， 如 果 加 以 串 收 就 有 可 能 拼装 起 较 大 的 页 面 块 。 同 时 ， 可 能 还 有 些 “ 脏 ?” 
页 面 在 全 局 的 inactive dirty pages 队列 中 ， 把 脏 页 面 的 内 容 写 出 到 交换 设备 上 或 文件 中 ， 就 可 以 使 它 
们 变 成 “干净 ”页 面 而 加 以 回收 。 所 以 ， 针 对 第 一 种 可 能 ， 代 码 中 通过 page_launder( ) 把 “及 页 ” 面 “ 洗 
净 ”( 详 见 “ 页 面 的 定期 换 出 ”)， 然 后 通过 一 个 for 循环 在 各 个 页 面 管理 区 中 回收 和 释放 “干净 ”页 面 。 
具体 的 回收 和 释放 是 通过 一 个 while 循环 完成 的 。 在 通过 __free_page( ) 释 放 负 和 面 时 会 把 空闲 页 面 拼装 起 
尽 可 能 大 的 页 而 块 ， 所 以 在 每 癌 收 了 一 个 页 面 以 后 邦 要 调用 rmqueue( ) 试 一 下 ,看 看 是 否 已 经 能 满 中 要 
求 。 值 得 注意 的 是 ， 这 里 在 调用 page_launder( ) 期 间 把 当前 进程 的 PF MEMALLOC 标志 位 没 成 1， 使 
其 有 了 “执行 公务 ”时 的 特权 。 为 什么 要 这 样 做 呢 ? 这 是 因为 在 page_launder( ) 中 也 会 葛 求 分 配 -一些 临 
时 性 的 上 作 页 徊 ， 不 把 PF_MEMALLOC 标志 位 设 成 1 跳 可 能 递归 地 进入 这 里 的 409 一 476 fT. 

如 果 回 收 了 这 样 的 页 和 面 以 后 还 是 不 行 ， 那 就 是 可 分 配 页 而 的 总 量 不 够 了 。 这 时 候 一 种 办 法 是 唤醒 
kswapd， 和 而 紫 求 分 配 页 面 的 进程 则 睡眠 等 待 ， 由 kswapd 在 完成 了 轮 运 行 之 后 再 反 过 米 唤 醒 要 求 分 配 
TUR AEE. EA. ORB ACRES UII. RIE goto 语句 转 回 __alloc_pages( ) 开 头 处 的 标号 
try again 处 。 力 一 种 办 法 是 直接 调用 try_to_free_pages(), 3&7 +PR LASSE AL FH kswapd 调用 的 。 

那么 ， 如 果 是 “执行 公务 ” 呢 ? 或 者 ， 虽 然 不 是 执行 公务 ， 但 已 想 尽 了 一 切 办 法 ， 采 取 了 BHR 
施 ， 只 不 过 因为 要 求 分 配 的 是 成 块 的 页 面 才 没有 转 回 前面 的 标号 try_again 处 。 
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前 向 我 们 看 到 ， 一 次 次 加 大 力度 调用 __alloc_pages_limit( ) 时 ， 实 际 上 人 达 是 有 所 保留 的 。 例 如 ， 最 
后 一 次 以 PAGES. MIN 为 参数 ， 此 时 判断 是 否 可 以 分 配 的 准则 是 管理 区 中 可 分 配 页 的 “水 位 ”高 十 
z->pages_min。 之 所 以 还 留 着 -点 “ 老 本 ”， 是 为 应 付 紧 急 状况 ， 而 现在 凯 到 了 “不 惜 血本 ”的 时 候 了 。 
我 们 继续 往 下 看 __alloc_pages( PRI. 


[alloc_pages( ) > __alloc_pages( )] 


478 /* 

479 * Final phase: allocate anything we can! 

480 * 

481 * Higher order allocations, GFP ATOMIC allocations and 
482 * recursive allocations (PF MEMALLOC) end up here. 

483 * 

484 * Only recursive allocations can use the very last pages 
485 * in the system, otherwise it would be just too easy to 
486 * deadlock the system... 

487 */ 

488 zone = zonelist—>zones; 

489 for G) 4 

490 zone t *z = *(zonet+); 

491 struct page * page - NULL; 

492 if (lz) 

493 break; 

494 if (!z-^size) 

495 BUG( ) ; 

496 

497 /* 

498 * SUBTLE: direct reclaim is only possible if the task 
499 * becomes PF MEMALLOC while looping above. This will 
500 * happen when the OOM killer selects this task for 
501 * instant execution... 

502 */ 

503 if (direct reclaim) | 

504 page = reclaim page (z); 

505 if (page) 

506 return page; 

507 ] 

508 

509 /* XXX: is pages min/4 a good amount to reserve for this? */ 
510 if (z->free pages € z-»pages min / 4 && 

511 !(current-^flags & PF MEMALLOC) ) 

512 continue; 

513 page = rmqueue(z, order): 

514 if (page) 

515 return page; 

516 j 

517 
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518 /* No luck.. */ 

519 printk(KERN ERR " alloc_pages: *lu-order allocation failed. \n”, order); 
520 return NULL; 

521 ] 


如 采 连 这 也 失败 ， 那 一 定 是 系统 有 问题 了 。 

读者 也 许 会 说 ;好 家 伙 ， 分 配 一 个 (或 儿 个 ) 内 在 页面 有 这 么 麻烦 ， 耶 CPU 还 有 多 少 个 时 间 能 用 于 
实质 性 的 计算 呢 ? 此 知道 我 们 这 里 是 假定 分 配 页 面 的 努 尹 “ 屡 战 屡 败 ” 而 又 “ 屡 败 展 战 ” 这 才 有 这 
么 多 艰 语 单 绝 的 努力 。 实 际 上 .， 绝 大 多 数 的 分 配 页 面 操作 都 是 在 分 配 策略 所 规定 的 第 一 个 抽 面 管理 区 
中 就 成 功 了 。 不 过 ， 从 这 蛙 我 们 可 以 看 到 设计 一 个 系统 需要 何等 周密 的 考虑 。 


2.8 页 面 的 定期 换 出 


这 个 情景 比较 长 ， 读 者 得 有 点 耐心 。 

为 了 避免 总 是 在 CPU 忙碌 的 时 候 ， 也 就 是 在 缺 页 异常 发 生 的 时 候 ， 临 时 再 来 搜寻 可 供 换 出 的 内 存 
页 面 并 加 以 换 出 ，Linux 内 核定 期 地 检查 并 且 预 先 将 车 十 页 面 换 出 ， 腾 出 空间 ， 以 减轻 系统 在 缺 页 异常 
发 生 时 的 负担 。 当 然 ， 由 于 无 法 确切 地 预测 页 而 的 使 用 ， 即 使 这 样 做 了 也 还 是 不 能 完全 杜绝 在 缺 页 异 
常 发 生 时 内 存 没有 空 闪 页 面 ， 而 只 好 临时 寻找 可 换 出 页 面 的 本能。 但是， 这样 毕竟 可 以 减少 其 发 生 的 
概率 。 并 有 旦 ， 通 过 选择 适当 的 参数 ， 例 如 每 隔 多 久 换 出 ”次 ， 每 次 换 出 多 少 页 面 ， 可 以 使 得 在 缺 页 异 
常 发 生 时 必须 临时 寻找 负面 换 出 的 情况 实际 上 很 少 发 生 。 为 此 ， 在 Linux 内 核 中 设置 了 一 -个 专 司 定期 
将 页 面 换 出 的 “守护 神 ”kswapd。 

从 原理 上 说 ，kswapd 相当 于 “个 进程 ， 有 其 白 身 的 进程 控制 块 task struct 结构 ， 跟 其 他 进程 一 样 
有 内核 的 调度 。 而 正 因为 内 核 将 它 按 进程 来 调度 ， 就 可 以 让 它 在 系统 相对 空闲 的 时 候 米 这 行 。 不 过 ， 
与 普通 的 进程 相 比 ，kswapd 还 是 有 其 特殊 性 。 首 先 ， 它 没有 自己 独立 的 地 址 空间 ， 所 以 在 近代 操作 系 
统 理论 中 称 为 “线程 ”(thread) 以 示 区 别 。 那 么 ，kswapd 使 用 谁 的 地 址 空间 呢 ? 它 使 用 的 是 内 核 的 空 
间 。 在 这 一 点 上 ， 它 与 中 断 服务 程序 相似 。 其 次 ， 它 的 代码 是 静态 地 连接 在 内 核 中 的 ， 可 以 直接 调用 
内 核 中 的 各 种 子 程序 ， 而 不 像 普 通 的 进程 混 样 上 只 能 道 过 系统 调用 ， 使 用 预先 定义 好 的 … 组 功能 。 

本 他 讲述 kswapd 受 内 核 油 度 而 这 行 并 走 完 一 条 例 行 路 线 的 全 过 程 。 

线程 kswapd 的 源 代 码 基 本 上 都 在 mm/vmscan.c 中 。 先 来 看 它 的 建立 : 


1146 static int __ init kswapd_init (void) 


1147 { 

1148 printk( Starting kswapd v1. 8\n^) ; 

1149 swap setup( ); 

1150 kernel thread(kswapd, NULL, CLONE FS | CLONE FILES ; CLONE SIGNAL); 
1151 kernel thread(kreclaimd, NULL, CLONE FS | CLONE FTLES | CLONE. SIGNAL) ; 
1152 return 0; 

1153 } 


函数 kswapd_init( EE RACHA EAA ASE AA, CERRAR, E - 件 是 在 swap. setup( ) 
中 根据 物理 内 存 的 大 小 设 定 一 个 全 局 量 page_cluster: 
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[kswapd_init( ) > swap_setup( )] 


293 /* 

294 * Perform any setup for the swap system 

295 */ 

296 void | init swap setup (void) 

297 { 

298 /* Use a smaller cluster for memory <16MB or <32MB */ 
299 if (num physpages < ((16 * 1024 * 1024) >> PAGE SHJFT)) 
300 page cluster = 2; 

301 else if (num physpages < ((32 * 1024 * 1024) >> PAGE SHIFT) ) 
302 page cluster = 3; 

303 else 

304 page cluster = 4; 

30  ] 


LE- BEL EUKEPMB KHSR. APRMAN EBA SI, HAKEA BN I) 
操作 ， 所 以 如 果 每 次 只 读 一 个 页 面 是 不 经 济 的 。 比 较 好 的 办 法 是 既然 读 了 就 干脆 多 读 几 个 页 面 ， 称 为 
“ 预 读 ”。 但 是 预 读 意 味 着 每 次 需要 暂 存 更 多 的 内 存 页 面 ， 所 以 需要 决定 个 适当 的 数量 ,而 根据 物 型 
内 存 本 身 的 大 小 来 确定 这 个 参数 显然 是 合理 的 。 第 二 件 事 就 是 创建 线程 kswapd, 这 是 由 kernel_thread( ) 
完成 的 。 这 里 还 创建 了 另 一 个 线程 kreclaimd， 也 是 跟 存储 管理 有 关 ， 椒 过 不 像 kswapd 那么 复杂 和 重 
要 , 所 以 我 们 暂且 把 它 放 在 … 边 , 关 丁 建立 线程 的 详情 请 参阅 进程 管理 一 章 , 这 里 暂且 假定 线程 kswapd 
BLE I. FFA ARR kswapd( ) 开 始 执行 。 其 代码 在 mm/vmscan.c |}: 


947 /* 

948 * The background pageout daemon, started as a kernel thread 
949 * from the init process. 

950 * 

951 * This basically trickles out pages so that we have some 
952 * free memory available even if there is no other activity 
953 * that frees anything up. This is needed for things like routing 
954 * etc, where we otherwise might have all activity going on in 
955 * asynchronous contexts that cannot page things out. 

956 * 

957 * Tf there are applications that are active memory-allocators 
958 * (most normal use), this basically shouldn't matter. 

959 */ 

960 int kswapd (void *unused) 

961 { 

962 struct task struct *tsk = current; 

963 

964 tsk—->session = 1; 

965 tsk->perp = 1; 

966 strcpy (tsk->comm, “kswapd”) ; 

967 sigfillset (&tsk—>blocked) ; 

968 kswapd_task = tsk; 
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sc 
* 


Tell the memory management. that we're a "memory allocator^, 
and that if we need more memory we should get access to it 
regardless (sec "  alloc pages( )”). "kswapd' should 

never get caught in the normal page freeing logic. 


(Kswapd normally doesn't need memory anyway, but sometimes 
you need a small amount of memory in order to be able to 
page out something else, and this flag essentially protects 
us from recursively trying to free more memory as we're 
trying to free the first piece of memory in the first place). 


* 0X X X X X X X X X 


x/ 
tsk->flags |- PF MEMALLOC; 


/* 
* Kswapd main loop. 
*/ 
foro s 
static int recalc = Q; 


/* If needed, try to free some memory. */ 
if (inactive shortage( ) || free shortage( )) { 
int wait = Q; 
/* Do we need to do some synchronous flushing? */ 
if (waitqueue active(&kswapd done)) 
wait = 1; 
do try to free pages (GFP KSWAPD, wait); 





/* 

* Do some (very minimal) background scanning. This 
* will scan all pages on the active list once 

* every minute. This clears old referenced bits 

x and moves unused pages to the inactive list. 

*/ 


refill inactive scan(6, 0); 


/* Önce a second, recalculate some VM stats. */ 
if (time after(jiffies, recalc * HZ)) | 

recalc - jiffies; 

recalculate vm stats( ); 


/* 
* Wake up everybody waiting for free memory 
* and unplug the disk queue. 


*/ 
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1017 wake up all(&kswapd done); 

1018 run task queue(&tq disk); 

1019 

1020 /* 

1021 * We go to slecp if either the free page shortage 
1022 * or the inactive page shortage is gone. We do this 
1023 * because: 

1024 * 1) we need no more free pages or 

1025 * 2) the inactive pages need to be flushed to disk, 
1026 * it wouldn't help to eat CPU time now ... 

1027 * 

1028 * We go to sleep for one second, but if it's needed 
1029 * we ll be woken up earlier... 

1030 */ 

1031 if (!free shortage( ) || !inactive shortage( )) { 
1032 interruptible sleep on timeout(&kswapd wait, HZ); 
1033 /* 

1034 * If we couldn't free enough memory, we see if it was 
1035 * due to the system just not having enough memory. 
1036 * If that is the case, the only solution is to kill 
1037 * a process (the alternative is enternal deadlock). 
1038 * 

1039 * If there still is enough memory around, we just loop 
1040 * and try free some more memory... 

1041 */ 

1042 } else if (out of memory( )) { 

1043 oom kill(); 

1044 } 

1045 } 

1046} 


在 一 些 简单 的 初始 化 操作 以 后 ， 程 序 便 进入 -个 无 限 循 环 。 在 每 次 循环 的 末尾 : 般 部 会 调用 
interruptible_sleep_on_timeout( ) 进 入 睡眠 ， 让 内 核 自 由 地 调度 别 的 进程 运行 。 但 是 内 核 在 -定时 间 以 后 
又 会 唤醒 并 调度 kswapd 继续 运行 ， 这 时 候 kswapd 就 义 回 到 这 无 限 循环 开始 的 地 方 。 示 么 ， 这 “ E 
HEI” EEKE, AMERA HZ. HZ 决定 了 内 核 中 每 秒 钟 有 多 少 次 时 钟 中 断 。 用 户 串 以 在 编译 内 核 
前 的 系统 配置 阶段 改变 其 数值 ,但 是 经 编 泽 就 定 下 来 了 。 所 以 ,在 调用 interruptible_sleep_on_timeout( ) 
时 的 参数 为 HZ, 表示 1 秒 钟 以 后 义 旨 调度 kswapd 继续 运行 ,换言之 ,对 interruptible_sleep_on_timeout( ) 
的 调用 一 进去 就 得 1 秒 钟 以 后 才 回 来 。 俱 是 ， 在 有 些 情况 下 内 核 也 会 在 不 到 1 秒 钟 时 就 把 它 唤醒 ， 那 
样 kswapd 就 会 所 前 返 串 而 开始 新 的 一 轮 循 环 。 所 以 ,这 个 循环 至 少 每 隔 1 秒 钟 执行 i EAE kswapd 
的 例 行 路 线 。 

那么 ，kswapd 在 这 至 少 每 秒 一 次 的 例 行 路 线 中 做 些 什么 呢 ? 可 以 把 它 分 成 黄 部 分 。 第 “部 分 是 在 
发 现 物理 页 面 已 经 短缺 的 情况 下 才 进 行 的， 上 的 在 于 预先 找 出 芳 干 页 面 ， 且 将 这 些 页 面 的 映射 断 开 ， 
使 这 些 物理 页 面 从 活跃 状态 转 入 不 活跃 状态 ， 为 页 面 的 换 出 作 好 准备 。 第 二 部 分 是 每 次 都 归 执 行 的 ， 
目的 在 于 把 已 经 处 十 不 活跃 状态 的 “ 脏 ” 页 面 写 入 父 换 设备 ， 使 它们 成 为 不 活跃 “十 净 ” 页 面 继续 组 
冲 ， 或 进 “ 步 回收 一 些 这 样 的 页 面 成 为 空闲 页 面 。 
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Linux 内 核 源 代 码 情景 分 析 CERO 
先 看 第 一 部 分 ， 首 先 检查 内 存 中 可 供 分 配 或 周转 的 物理 页 面 起 个 知 缺 ， 


[kswapd( ) > inactive_shortage( )] 


805 /* 

806 * How many inactive pages are we short? 
807 */ 

808 int inactive shortage (void) 

809 { 

810 int shortage = 0; 

811 

812 shortage += freepages. high; 

813 shortage += inactive target; 

814 shortage -= nr free pages( ); 

815 shortage -= nr inactive clean, pages( ); 
816 shortage -- nr inactive dirty pages; 
817 

818 if (shortage > 0) 

819 return shortage; 

820 

821 return 0; 

822  ] 


系统 中 应 该 维持 的 物理 页 面 供应 量 由 滑 个 全 局 量 确定 ， 那 就 是 freepages.high 和 inactive target, 7} 
别 为 空闲 页 面 的 数量 和 不 活跃 页 面 的 数量 ， 二 者 之 和 为 正常 情况 下 潜在 的 供应 量 。 和 而 这 些 内 存 页 面 的 
来 源 则 有 三 个 方面 。 一 方面 是 当前 尚 存 的 空闲 页 面 ， 这 是 立即 就 可 以 分 配 的 页 面 。 这 些 页 而 分 散在 各 
个 页 面 管理 区 中 , 并 且 合 并 成 地 址 连续 、 大 小 为 2.4、8、…、2 个 页 面 的 页 面 块 , 其 数量 由 nr_free_pages( ) 
加 以 统计 。 另 一 方面 是 现 有 的 不 活跃 “十 净 ” 页 面 ， 这 些 页 面 本 质 上 也 是 马上 就 可 以 分 配 的 页 面 ， 但 
是 页 面 中 的 内 容 可 能 还 会 用 到 ， 所 以 多 保留 - 些 这 样 的 页 面 有 助 于 减少 从 交换 设备 的 读 入 。 这 些 页 面 
也 分 散在 各 个 页 面 管理 区 中 ， 但 并 不 合并 成 块 ， 其 数量 由 nr inactive clean. pages ( ) 加 以 统计 。 最 后 足 
现 有 的 不 活跃 “ 脏 ” 页 面 ， 这 些 页 面 要 先 加 以 “净化 ” 即 写 入 交换 设备 以 后 才能 投入 分 配 。 这 种 页 血 
全 都 在 同 - .个 队列 中 ， 内 核 中 的 全 局 量 nr. inactive, dirty. pages 记录 着 当前 此 类 页 面 的 数量 。 上 述 两 个 
水 数 的 代码 都 在 mm/page_alloc.c 中 ， 也 者 比较 简单 ， 读 者 可 以 日 己 阅 读 。 

Tut, 光 维 持 潜 在 的 物理 页 面 供应 总 量 还 不 够 ， 还 此 通过 free_shortage( ) 检 查 是 否 有 某 个 具体 管理 
区 中 有 严重 的 短缺 ， 即 直接 可 供 分 配 的 页 而 数量 〈 除 不 活跃 “ 脏 ” 页 面 以 外 ) 是 否 小 于 - -个 最 低 限 度 。 
这 个 函数 的 代码 在 mm/vmscan.c 中 ， 我 们 也 把 它 留 给 读者 。 

如 果 发 现 可 供 分 配 的 内 存 页 面 短缺 ， 那 就 要 设法 释放 和 换 出 若干 页 面 ， 这 是 通过 
do_try_to_free_pages( ) 完 成 的 。 不 过 在 此 之 前 还 要 调用 waitqueue_active( )， 看 看 kswapd_done 队列 中 
是 否 有 函数 在 等 待 执行 ， 并 把 查看 的 结果 作为 参数 传递 给 do_try_to_free_pages( )。 在 第 3 章 中 ， 读 者 
将 看 到 内 核 中 有 几 个 特殊 的 队列 ， 内 核 中 各 个 部 分 〈 主 要 是 设备 驱动 ) 可 以 把 一 些 低 层 函 数 挂 入 这 样 
的 队列 ， 使 得 这 些 函 数 在 某 种 事件 发 生 时 就 能 得 到 执行 。 而 kswapd_done， 就 正 是 这 样 的 “个 队列 。 几 
是 挂 入 这 个 队列 的 函数 ， 在 kswapd 每 完成 : 趟 例 行 的 操作 时 就 能 得 到 执行 。 这 里 的 inline eÁ% 
waitqueue_active( ) 就 是 查看 是 否 有 消 数 在 这 个 队列 中 等 待 执 行 。 其 定义 在 include/linux/wait.h 中 : 


.94 ， 


第 2 章 存储 管理 


[kswapd( ) > waitqueue_active( )] 


152 
153 
154 
155 
156 
157 


static inline int waitqueue active(wait queue head t *q) 
{ 
#if WATTQUEUE_DEBUG 
if (!q) 
WQ_BUG( ); 
CHECK_MAGIC_WQHEAD (q) ; 
#endif 


return !list_empty (&q->task_ list); 


} 
下 面 就 是 调用 do_try_to_free_pages( )， 试 图 腾 出 -- 些 内 存 页 面 。 其 代码 在 vmscan.c rh: 


[kswapd( ) > do_try_to_free_pages( )] 
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static int do_try_to_free pages (unsigned int gfp mask, int user) 
{ 


int ret = 0; 


If we re low on free pages, move pages from the 
inactive dirty list to the inactive clean list. 


Usually bdflush will have pre-cleaned the pages 

before we get around to moving them to the other 

* list, so this is a relatively cheap operation. 

*/ 

if (free shortage( ) i| nr inactive dirty pages > nr free pages( ) + 
nr inactive clean pages( )) 

ret += page launder(gfp mask, user); 


/* 
* If needed, we move pages from the active list 
* to the inactive list. We also “eat” pages from 


* the inode and dentry cache whenever we do this. 
*/ 
if (free shortage( ) || inactive shortage( )) { 


shrink dcache memory(6, gfp mask); 

shrink icache memory (6, gfp mask); 

ret += refill inactive(gfp mask, user); 
| else { 

/* 

* Reclaim unused slab cache memory. 

*/ 

kmem cache reap(gfp mask); 

ret = 1; 
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return ret; 


将 活跃 页 面 的 映射 断 开 ， 使 之 转 入 不 活跃 状态 ， 甚 至 进而 换 出 到 交换 设备 上 ， 是 不 得 已 而 为 之 ， 
因为 谁 也 不 能 精确 地 预测 到 底 哪 一 些 丰 面 是 合适 的 换 出 对 象 。 虽 然 一 般 而 言 “ 最 近 最 少 用 到 ” 是 个 有 
MERI, BEATE "PUN BOE". 所 以 ， 能 够 不 动 “ 现 役 ” 页 面 是 最 理想 的 。 基 于 这 样 的 考 
虑 ， 这 里 所 作 的 是 先 易 后 难 ， 逐 步 加 强力 度 。 首 先是 调用 page_launder( )， 试 图 把 已 经 转 入 不 活跃 状态 
的 “ 脏 ” 页 面 “ 洗 净 ”， 使 它们 变 成 立即 可 以 分 配 的 页 面 。 函 数 名 中 的 “launder”， 就 是 “洗衣 工 ” 的 
意思 。 这 个 函数 一 方面 (基本 上 ) 定 期 地 受到 kswapd( ) 的 调用 ， 一 方面 在 每 当 需 要 分 配 内 存 页 面 ， 而 叉 
无 页 面 可 供 分 配 时 ， 临 时 地 受到 调用 。 其 代码 在 mm/vmscan.c P: 


[kswapd( ) > do_try_to_free_pages( ) > page. launder( )] . 
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六 站 

page launder - clean dirty inactive pages, move to inactive clean list 
Ggfp mask: what operations we are allowed to do 

@sync: should we wait synchronously for the cleaning of pages 


When this function is called, we are most likely low on free * 
inactive clean pages. Since we want to refill those pages as 

soon as possible, we'll make two loops over the inactive list, 
one to move the already cleaned pages to the inactive clean lists 
and one to (often asynchronously) clean the dirty inactive pages. 


In situations where kswapd cannot keep up, user processes will 
end up calling this function. Since the user process needs to 
have a page before it can continue with its allocation, we'll 
do synchronous page flushing in that case. 


This code is heavily inspired by the FreeBSD source code. Thanks 
go out to Matthew Dillon. 


X * X 0X X — 0X X X He XX X KF X X KF X X 


*/ 


define MAX LAUNDER (4 * (1 << page cluster)) 


i 


{ 


nt page launder (int gfp_mask, int sync) 


int Launder loop, maxscan, cleaned pages, maxlaunder; 
int can get io locks; 

struct list head * page lru; 

struct page * page; 


/* 

* We can only grab the IO locks (eg. for flushing dirty 
* buffers to disk) if __GFP_IO is set. 

*/ 
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can get io locks = gfp mask & __GFP_IO; 


launder loop - 0; 
maxlaunder = 0; 
cleaned pages = 0; 


dirty page rescan: 
spin lock(&pagemap lru lock); 
maxscan - nr inactive dirty pages; 
while ((page_lru = inactive dirty list.prev) !- &inactive dirty list && 
maxscan-- > 0) { 
page - list entry(page lru, struct page, lru); 


/* Wrong page on list?! (list corruption, should not happen) */ 
if (!PagelnactiveDirty(page)) { 
printk(^VM: page launder, wrong page on list. \n”); 
list del(page lru); 
nr inactive dirty pages--; 
page-^zone-^inactive dirty pages--; 
continue; 


/* Page is or was in use? Move it to the active list. */ 
if (PageTestandClearReferenced(page) |! page-^age > 0 || 
(!page->buffers && page count(page) > 1) |! 
page ramdisk(page)) | 
del page from inactive dirty list(page); 
add page to active list (page); 
continue; 


/* 

* The page is locked. IO in progress? 

* Move it to the back of the list. 

*/ 

if (TryLockPage(page)) { 
list del (page_lru) ; 
list add(page lru, &inactive dirty list); 
continue; 


/A* 
* Dirty swap- cache page? Write it out if 
* last copy.. 
*/ 
if (PageDirty(page)) 1 
int (*writepage) (struct page *) = page->mapping—>a_ops—>writepage; 
int result; 
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if (!writepage) 
goto page active; 


/* First time through? Move it to the back of the list */ 
if (!launder loop) { 

list del (page lru); 

list add(page lru, &inactive dirty list); 

UnlockPage (page) ; 

continue; 


j 


/* OK, do a physical asynchronous write to swap. */ 
ClearPageDirty (page) ; 

page cache get (page); 

spin unlock(&pagemap lru lock); 


result - writepage (page); 
page. cache. release (page) ; 


/* And re-start the thing.. */ 
spin_lock (&pagemap_lru_lock) ; 
if (result != 1) 

continue; 
/* writepage refused to do anything */ 
set page dirty(page); 
goto page active; 


* If the page has buffers, try to free the buffer mappings 
* associated with this page. If we succeed we either free 
* the page (in case it was a buffercache only page) or we 
* move the page to the inactive clean list. 
* 
* 
* 


On the first round, we should free all previously cleaned 
buffer pages 
*/ 
if (page->buffers) { 
int wait, clearedbuf; 
int freed_page = 0; 
/* 
* Since we might be doing disk IO, we have to 
* drop the spinlock and take an extra reference 
* on the page so it doesn’t go away from under us. 
*/ 
del page from inactive dirty list (page); 
page cache get (page); 
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spin unlock(&pagemap lru lock); 


/* Will we do (asynchronous) T0? */ 

if (launder loop && maxlaunder == 0 && sync) 
wait = 2;  /* Synchrounous IO */ 

else if (launder loop && maxlaunder-- > 0) 
wait = 1; /* Async IO */ 

else 
wait = 0; /#* No IO */ 


/* Try to free the page buffers. */ 
clearedbuf = try to free buffers(page, wait); 


/* 
* Re-take the spinlock. Note that we cannot 
* unlock the page yet since we re still 
* accessing the page struct here... 
*/ 
spin lock(&pagemap lru lock); 


/* The buffers were not freed. */ 
if (!clearedbuf) | 
add page to inactive dirty list(page); 


/* The page was only in the buffer cache. */ 
) else if (!page->mapping) { 
atomic dec(&buffermem pages); 


freed page - 1; 
cleaned pages--; 


/* The page has more users besides the cache and us. 
} else if (page count (page) > 2) { 
add page to active list(page); 


/* OK, we “created” a freeable page. */ 

} else /x page->mapping && page count (page) == 2 */ | 
add page to inactive clean list (page); 
cleaned pagest+; 


/* 

* Unlock the page and drop the extra reference. 
* We can only do it here because we ar accessing 
* the page struct above. 

*/ 
UnlockPage (page) ; 
page cache release (page) ; 


x/ 


.99. 


Linux 内 核 源 代 码 情景 分 析 〈 上 册 ) 


640 /* 

641 * Jf we re freeing buffer cache pages, stop when 
642 * we ve got enough free memory. 

643 */ 

644 if (freed page && !free shortage( )) 

645 break; 

646 continue; 

647 } else if (page mapping && !PageDirty(page)) { 
648 /* 

649 * Tf a page had an extra reference in 

650 * deactivate page( ), we will find it here. 
651 * Now the page is really freeable, so we 
652 * move it to the inactive clean list. 

653 */ 

654 del page from inactive dirty list(page); 

655 add page to inactive clean list (pago); 

656 UnlockPage (page) ; 

657 cleaned pages++; 

658 } else 1 

659 page active: 

660 /* 

661 * OK, we don t know what to do with the page. 
662 * It’s no use keeping it here, so we move it to 
663 * the active list. 

664 */ 

665 del page from inactive dirty list (page) ; 
666 add page to active list(page); 

667 UnlockPage (page) ; 

668 } 

669 } 

670 spin unlock(&pagemap lru lock); 








代码 中 的 局 部 量 cleaned_pages 用 来 累计 被 “ 洗 清 ”的 页 而 数量 。 另 一 个 局 部 量 launder loop 用 来 
控制 扫描 不 活跃 “ 脏 ” 页 面 队列 的 次 数 。 在 第 一 趟 扣 j 描 时 launder loop 为 0， 如 果 有 必要 进行 第 IA 
描 ， 则 将 其 设 成 1 并 转 回 到 标号 dirty_page_rescan 处 (502 行 )， 开 始 义 一 次 扫 摘 。 

对 不 活跃 “ 脏 ” 页 而 队列 的 扫描 是 通过 一 个 while 循环 (505 行 ) 进 行 的 。 由 十 在 循 坏 中 会 皂 有 些 风 
面 从 当前 位 置 移 到 队列 的 尾部 ， 所 以 除 沿 着 链接 指针 扫描 外 还 要 对 数量 加 以 控制 ， 才 能 避免 重复 处 埋 
同一 页 面 ， 甚 至 陷入 死 循环 ， 这 就 是 变量 maxscan 的 作用 。 

对 于 队列 中 的 每 一 个 页 而 ， 首 先 要 检查 它 的 PG_inactive_dirty 标志 位 为 1， 否则 就 根本 不 应 该 出 现 
在 这 个 队列 中 ， 这 : 定 是 出 了 什么 毛病 ， 所 以 把 它 从 队列 中 删除 ( 见 512 行 )。 除 此 之 外 ， 对 于 正常 的 
不 活跃 “ 脏 ” 页 面 ， 则 要 依次 作 下 述 的 检查 并 作 相 应 的 处 理 。 

(1) 有 些 页 面 虽然 已 经 进入 不 活跃 “ 脏 ” 页 面 队 你 ,但 是 由 于 情况 已 经 变化 ， 或 者 当初 进入 这 个 

BASU ARSE “OER EU. 因而 需要 回 到 活跃 页 和 面 队列 中 (519 一 525 行 )。 这 样 的 页 血行 : 
页 而 在 进入 了 不 活跃 “ 脏 ” 页 面 队 询 之 后 又 受到 了 访问 ， 即 发 生 了 以 此 页 面 为 目标 的 缺 页 异 
常 ， 从 而 恢复 了 该 页 面 的 映射 。 
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(3) 


(4) 


(5) 
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HHW “Hm” ERER. MEW page 结构 中 有 个 字段 age， 其 数值 与 欠 面 受 访问 的 频繁 程 
度 有 关 。 后 面 我 们 还 要 回 到 这 个 话题 。 
页 面 并 不 用 作 读 / 与 文件 的 缓冲 ， 而 页 面 的 使 用 计数 却 又 大 于 1。 这 说 明 页 面 在 至 少 一 个 进 
程 的 映射 表 中 有 映射 。 如 前 所 述 ， 一 个 页 面 的 使 用 计数 在 分 配 时 设 成 1， 以 后 对 该 页 面 的 每 
一 次 使 用 都 使 这 个 计数 加 1， 包 括 将 页 面 用 作 读 / 写 文 件 的 缓冲 。 如 果 - 一 个 页 面 没 有 用 作 读 
/ 写 文 件 的 缓冲 ， 那 么 只 要 计数 大 十 1 就 必定 还 有 进程 在 使 用 这 个 页 面 。 
页 和 面 在 受到 进程 用 户 空 间 映 射 的 同时 又 用 十 ramdisk， 即 用 内 存 空间 来 模拟 磁盘 ， 这 种 页 而 
当然 不 应 该 换 出 到 磁盘 上 。 
页 面 已 被 锁 住 (531 行 )， 所 以 TryLockPage( ) 返 回 1， 这 表明 正在 对 此 页 面 进行 操作 ， 如 输入 
/ 输出 ， 这 样 的 页 面 应 该 留 在 不 活跃 “ 脏 ” 页 和 面 队列 中 ， 但 是 把 它 移 到 队 刺 的 尾部 。 注 意 ， 
对 于 末 被 锁 住 的 页 面 ， 现 在 已 经 锁 上 了 。 
如 果 页 面 仍 是 “ 脏 ” 的 (541 行 )， 即 page 结构 中 的 PG dirty 标志 位 为 1， 则 原则 上 芋 要 将 其 写 
出 到 交换 设备 上 ， 但 还 有 些 特殊 情况 要 考虑 (541 一 571 行 )。 首 先 ， 所 属 的 address_space 数据 
结构 必须 提供 页 面 扎 出 操作 的 函数 ， 否 则 就 只 好 转 到 page active 处 ,将 页 面 送 回 活跃 页 面 队 
SUP. MAY eR, TBI address space 数据 结构 为 swapper space, H 
address space operations 结构 为 swap_aops， 所 提供 的 页 面 写 出 操作 为 swap_writepage( )， 过 
这 ““ 关 ”是 没有 问题 的 。 在 第 一 走 扫 描 中 ， 只 是 把 页 面 移 到 间 队列 的 尾部 ， 而 并 不 写 出 
页 面 (531~535 行 )。 如 果 进 行 第 二 趣 扫 描 的 话 ， 那 就 真 的 旨 把 页 面 写 出 去 了 。 写 之 前 先 通 过 
ClearPageDirty( HEK Hi HJ PG. dirty 标志 位 清 成 0, 然后 通过 由 所 属 address. space 数据 结构 所 
提供 的 函数 把 页 面 写 出去。 根据 页 面 的 不 同 使 用 目的 ， 例 如 普通 的 用 户 补 间 页 面 ， 或 者 通过 
mmap( ) 建 立 的 文件 映射 以 及 文件 系统 的 谈 / 写 缓冲 , 具体 的 操作 也 不 一 样 。 这 个 写 操作 可 能 
是 同步 的 (当前 进程 睡眠 ， 等 待 扎 出 完成 )， 也 可 能 是 异步 的 ， 但 总 是 需要 一 定 的 时 间 才 能 完 
成 ， 在 此 期 间 内 核 有 可 能 再 次 进入 page launder )， 所 以 需要 防止 把 这 个 页 面 再 写 出 -- 次 。 
这 就 是 把 页 而 的 PG. dirty 标志 位 清 成 0 的 月 的 。 这 样 ， 就 不 会 把 同 ， -个 页 而 写 出 两 次 了 《【 见 
541 行 )。 此 外 ， 还 要 考 虚 页 面 写 出 失败 的 可 能 ， 具 体 的 函数 在 写 出 失败 时 应 该 返 |n| 1， 使 
page_launder( ) 可 以 恢复 页 而 的 PG_dirty 标志 位 并 将 共 退 还 给 活跃 页 面 队列 中 (569~-570 行 )。 
顺便 提 一 下 ， 这 里 在 调用 其 体 的 writepage 级 数 时 先 通过 page_cache_get( ) 北 增 和 负面 的 使 用 计 
数 ， 从 这 个 函数 返回 后 再 通过 page cache release( ) 递 减 这 个 计数 ， 表 示 齐 把 页 面 写 山 的 期 间 
多 了 一 个 “用 户 ”。 注意 这 里 并 没有 立即 把 写 出 的 页 面 转移 到 不 活跃 “干净 ”页 面 队列 中 ， 
而 只 是 把 它 的 PG_dirty 标志 位 清 成 了 0。 还 要 注意 ， 如 果 CPU 到 达 了 代码 中 的 582 行 ， 则 页 
IA) PG. dirty 标志 位 必定 是 0， 这 个 页 面 : 定 是 在 以 前 的 扫描 中 写 出 而 变 “十 净 ” 的 。 
如 果 负 面 不 再 是 “ 脏 ” 的 ， 并 且 又 是 用 作文 件 读 / 写 缓冲 的 页 面 (5382 一 647 行 )， 则 先 使 它 脱 
离 不 活跃 “及 ”页 面 队列 ， 再 通过 try_to_free_buffers( ) 试 图 将 页 面 释 放 。 如 果 不 能 释放 则 根 
据 返 回 值 将 其 退回 不 活跃 “ 脏 ” 页 面 队 列 ， 或 者 链 入 活跃 页 面 队 列 ， 或 者 不 活跃 “于 净 ” 页 
IAS. BRE RM, WI MAA OA try_to_free_buffers( ) 中 减 1, 638 行 的 
page_cache_release( ) 和 再 使 其 减 1 就 达到 了 0， 从 而 最 终 将 页 面 释放 加 到 空 闪 页 面 队 列 中 。 如 
果 成 功 地 释放 了 一 个 页 面 ， 并 日 发 现 系 统 中 的 空闲 页 而 已 经 不 再 短缺 ， 那 么 扫描 就 可 以 结束 
了 ( 见 644 和 645 行 )。 否 则 继续 扫描 。 函 数 try_to_free_buffers( ) 的 代码 全 fs/bufferc 中 ， 读 者 
可 以 在 学 习 了 “文件 系统 ”一 章 以 后 自行 阅读 。 
如 果 页 面 不 再 是 “ 脏 ” 的 ， 并且 在 某 个 address space 数据 结构 的 队列 中 ， 这 就 是 已 经 “ 洗 清 ” 
. 101 . 
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了 的 负面， 所 以 把 它 转 移 到 所 属 区 间 的 不 活跃 “干净 ”页 面 队 列 中 。 
(6) 最后， 如 果 不 属于 上 述 的 任何 一 种 情况 (658 行 )， 那 就 是 无 法 处 理 的 页 面 ， 所 以 把 它 退 回 活跃 
Bi BA. 
ERT BAHU, 还 要 根据 系统 中 空闲 页 面 古人 省 短缺 ,以 及 调用 参数 gfp. mask 中 的 _GFP_IO 
立 是 否 为 1， 来 决定 是 否 进行 第 二 趟 扫 摘 。 


[kswapd( ) > do to free pages( ) > page launder( )] 
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If we don’t have enough free pages, we loop back once 

to queue the dirty pages for writeout. When we were called 
by a user process (that /needs/ a free page) and we didn't 
free anything yet, we wait synchronously on the writeout of 
MAX SYNC LAUNDER pages. 


We also wake up bdflush, since bdflush should, under most 
loads, flush out the dirty pages before we have to wait on 
* 10, 
*/ 
if (can get io locks && !launder loop && free shortage( )) | 
]aunder loop = 1; 
/* If we cleaned pages, never do synchronous 10. */ 
if (cleaned pages) 

sync = 0; 
/* We only do a few “out of order” flushes. */ 
maxlaunder = MAX LAUNDER; 
/* Kflushd takes care of the rest. */ 
wakeup_bdflush (0) ; 
goto dirty page rescan; 


* * X* X x* * * * 


} 


/* Return the number of pages moved to the inactive clean list. */ 
return cleaned_pages; 


} 


如 果 决 定 进行 第 : 趟 扫描 , 就 转 回 到 502 行 标号 dirty_page_rescan 处 。 注意 这 里 把 launder_loop tx 
1， 以 后 就 不 可 能 表 回 过 去 又 扫描 一 次 了 。 所 以 每 次 调用 page_launder( ) 最 多 是 作 两 趟 扫 摘 。 

[FI] do_try_to_free_pages( ) 的 代码 中 ， 经 过 page_launder( ) 以 后 ， 如 果 可 分 配 的 物理 页 面 数 量 仍然 
， 那 就 要 进步 设法 回收 页 面 了 。 不 过 ， 也 并 不 是 单纯 地 从 各 个 进程 的 用 户 空间 所 映射 的 物理 负 


面 中 回收 ， 而 是 从 四 个 方面 同 收 ， 这 上 诺 是 这 里 所 调用 三 个 函数 Cshrink_dcache_memory( ). 


shrin 
件 系 
还 有 


k_icache_memory( ). refill inactive( ))， 以 及 等 -下 将 会 看 天 的 kmem_cache_reap( ) 的 意图 。 在 “ 文 
统 ” 一 章 中 ,读者 将 会 看 到 ， 在 打开 文件 的 过 程 中 虐 分 配 和 使 用 代表 着 日 录 项 的 dentry 数据 结构 ， 
代表 着 文件 索引 节点 的 inode 数据 结构 。 这 些 数 据 结构 在 文件 关闭 以 后 并 不 立即 释放 ， 而 是 放 在 


LRU 队列 中 作为 后 备 ， 以 防 在 不 久 将 来 的 义 件 操作 中 又 要 用 到 。 这 样 ， 经 过 BONTRIL, MA n Re 
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积累 起 大 量 的 dentry 数据 结构 和 inode 数据 结构 ， 占 用 数量 可 观 的 物理 页 耐 。 这 时 ， 就 柴 通 过 
shrink_dcache_memory( ) 和 shrink icache memory( ) 适 当 加 以 回收 ， 以 维持 这 些 数 据 结 构 与 物理 页 面 间 
的 “生态 平衡 ” 另 一 方面 ， 除 此 以 外 ， 内 核 在 运行 中 也 需要 动态 地 分 配 使 用 很 多 数据 结构 ， 内 核 中 对 
此 采用 了 一 种 称 为 “slab” 的 管理 机 制 。 以 后 读者 会 看 到 ， 这 种 机 制 就 好 像 是 向 存储 管理 “批发 ”物理 
页 面 ， 然 后 切割 成 小 块 “ 零 售 *。 随 着 系统 的 运行 ， 对 这 种 物理 页 面 的 实际 需求 也 在 动态 地 变化 。 但 是 
slab 管理 机 制 也 是 倾向 于 分 配 和 保持 喝 多 的 室 闲 物理 页 面 ， 市 木 热 识 于 退还 这 些 页 面 ， 所 以 过 CERNI 
间 束 要 通过 kmem_cache_reap( ) 来 “收割 ”读者 可 以 在 学 习 了 “文件 系统 ”后 回 过 来 自己 阅读 前 两 个 
函数 的 代码 ， 我 们 在 这 里 则 集中 关注 refill_inactive( )， 其 代码 在 mm/vmscan.c 中 : 





[kswapd( ) > do try to free pages( ) > refill inactive ( )] 


824 /* 

825 * We need to make the locks finer granularity, but right 
826 * now we need this so that we can do page allocations 
827 * without holding the kernel lock etc. 

828 * 

829 * We want to try to free "count/ pages, and we want to 
830 * cluster them so that we get good swap-out behaviour. 
831 * 

832 * OTOH, if we're a user process (and not kswapd), we 
833 * really care about latency. In that case we don't try 
834 * to free too many pages. 

835 */ 

836 static int refill inactive(unsigned int gfp mask, int user) 
837 | 

838 int priority, count, start count, made progress; 
839 

840 count = inactive shortage( ) + free shortage( ); 

841 if (user) 

842 count = (1 << page cluster); 

843 start count = count; 

844 

845 /* Always trim SLAB caches when memory gets low. */ 
846 kmem cache reap(gfp mask); 

847 

848 priority = 6; 

849 do { 

850 made_progress = 0; 

851 

852 if (current->need resched) 1 

853 ^ set current state(TASK RUNNING) ; 

854 schedule( ); 

855 } 

856 

857 while (refill inactive scan(priority, 1)) { 

858 made progress = |; 
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859 if (—count <= 0) 

860 goto done; 

861 } 

862 

863 /* 

864 * don’t be too light against the d/i cache since 
865 * refill inactive( ) almost never fail when there's 
866 * really plenty of memory free. 

867 */ 

868 shrink dcache memory(priority, gfp mask); 

869 shrink icache memory(priority, gfp mask); 

870 

811 /* 

872 * Then, try to page stuff out.. 

873 */ 

874 while (swap out(priority, gfp mask)) { 

875 made progress = l; 

876 if (--count <= 0) 

877 goto done; 

878 } 

879 

880 /* 

88] * If we either have enough free memory, or if 
882 * page launder( ) will be able to make enough 
883 * free memory, then stop. 

884 */ 

885 if (finactive shortage( ) || !free shortage( )) 
886 goto done; 

887 

888 /* 

889 * Only switch to a lower “priority” if we 

890 * didn’t make any useful progress in the 

891 * last loop. 

892 */ 

893 if (!made progress) 

894 priority--; 

895 } while (priority >= 0); 

896 

897 /* Always end on a refill inactive.., may sleep... */ 
898 while (refill inactive scan(0, 1)) { 

899 if (--count <= 0) 

900 goto done; 

901 | 

902 

903 done: 

904 return (count < start count); 

905 } 
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参数 user 是 从 kswapd 传 下 来 的 ,表示 是 否 有 函数 在 kswapd_done 队列 中 等 待 执行 , 这 个 因素 决定 
回收 物理 页 和 面 的 过 程 是 否 可 以 慢 慢 来 ， 所 以 对 本 次 要 回收 的 页 面 数量 有 影响 。 

首先 通过 kmem cache, reap( “收割 ”由 slab 机 市 管 理 的 空闲 物理 页 闻 , 相对 而 言 这 是 动作 最 小 的 ， 
读者 可 以 在 学 习 了 “内 核 工 作 缓冲 区 的 管理 ”- - 节 以 后 自己 阅读 这 个 函数 的 代码 。 

然后 ， 就 是 -个 do-while 循环 。 循 环 从 优先 级 最 低 的 6 级 开始 ， 逐 步 加 大 “力度 ”站 到 0 级 ， 结 
果 或 者 达到 了 目标 ， 回 收 的 数量 够 了 ; 或 者 在 最 高 优先 级 时 还 是 达 不 到 目标 ， 那 也 只 好 算 了 《到 缺 页 
中 断 真 的 发 生 时 情况 也 许 有 了 改变 )。 

在 循环 中 , 每 次 开头 都 要 检查 一 下 当前 进程 的 task. struct 结构 中 的 need_resched 是 否 为 1. 如 果 是 ， 
就 说 明 某 个 中 断 服务 程序 要 求 调度 ， 所 以 调用 schedule ) 让 内 核 进行 一 次 调度 , 但 是 在 此 之 前 把 本 进程 
的 状态 设置 成 TASK_RUNNING， 表 达 要 继续 运行 的 意愿 。 读 者 在 第 4 章 中 将 会 看 到 ，task_struct 结构 
中 的 need_resched 是 为 强制 调度 而 设置 的 ， 每 当 CPU 结束 了 一 次 系统 调用 或 中 断 服务 、 从 系统 空间 返 
回 用 户 空 间 时 就 会 检查 这 个 标志 。 可 是 ，kswapd 是 个 内 核 线程 ， 永 远 不 会 “返回 用 户 空间 ”， 这 样 就 
有 可 能 绕 过 这 个 机 制 而 占 住 CPU 不 放 ， 所 以 只 能 靠 它 “自律 ”， 自 己 在 可 能 斋 要 较 长 时 间 的 操作 之 前 
检查 这 个 标志 并 调用 schedule( )。 

那么 ,在 循环 中 做 些 什么 呢 ? 主要 是 闫 件 事 。 一 件 是 通过 refill_inactive_scan( ) 扫 描 活 跃 抽 面 队列 ， 
试图 从 中 找到 可 以 转 入 不 活跃 状态 的 页 面 ， 另 一 件 是 通过 swap out( ) 找 出 一 个 进程 ， 然 后 扫描 其 映射 
表 ， 从 中 找 出 可 以 转 入 不 活跃 状态 的 页 面 。 此 外 ， 还 要 再 试 试用 十 dentry 结构 和 inode 结构 的 页 面 。 
JC refill inactive scan( ) 的 代码 ， 这 个 函数 在 mm/vmscan.c P; 





699 /于 水 

700 * refill inactive scan - scan the active list and find pages to deactivate 
101 * Gpriority: the priority at which to scan 

102 * Goneshot: exit after deactivating one page 

703 * 

704 * This function will scan a portion of the active list to find 

705 * unused pages, those pages will then be moved to the inactive list. 

706 */ 


707 int refill inactive scan (unsigned int priority, int oneshot) 
708 { 


709 struct list head * page lru; 

110 struct page * page; 

TLl int maxscan, page active = 0; 

712 int ret = 0; 

713 

714 /* Take the lock while messing with the list... */ 

715 spin lock (&pagemap lru lock); 

716 maxscan = nr_active pages >> priority; 

717 while (maxscan-- > 0 && (page lru = active list.prev)!- &active list) | 
718 page = list_entry(page_lru, struct page, Iru); 

719 

720 /* Wrong page on list?! (list corruption, should not happen) */ 
721 if (!PageActive(page)) | 

122 printk(^VM: refill inactive, wrong page on list. n^); 

123 list del(page lru); 
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724 nr active pages--; 

725 continue; 

726 } 

727 

728 /* Do aging on the pages. */ 

729 if (PageTestandClearReferenced(page)) { 

730 age page up nolock (page) ; 

131 page active - 1; 

132 ) else { 

733 age page down ageonly (page); 

734 /* 

735 * Since we don't hold a reference on the page 
736 * ourselves, we have to do our test a bit more 
737 * strict then deactivate page( ). This is needed 
738 * since otherwise the system could hang shuffling 
739 * unfreeable pages from the active list to the 
740 * inactive_dirty list and back again... 

741 六 

742 * SUBTLE: we can have buffer pages with count 1. 
743 */ 

744 if (page->age == 0 && page count (page) <= 

745 (page->buffers ? 2: D) { 

746 deactivate_page_nolock (page) ; 

747 page_active = 0; 

748 } else { 

149 page active = l; 

750 ) 

751 } 

752 /* 

753 * If the page is still on the active list, move it 
754 * to the other end of the list. Otherwise it was 
755 * deactivated by age_page_down and we exit successfully. 
756 */ 

757 if (page active || PageActive(page)) { 

758 list del(page lru); 

759 list add(page lru, &active list); 

760 | else f 

161 ret = 1; 

762 if (oneshot) 

763 break; 

764 } 

765 } 

766 spin unlock(&pagemap lru lock); 

. 767 

108 return ret; 

769  ] 


就 像 对 “ 脏 ” 页 面 队列 的 扫描 一 样 ， 这 里 也 通过 一 个 局 部 量 maxscan 来 控制 扫 摘 的 页 面 数量 。 不 
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过 这 里 扫描 的 不 一 定 是 整个 活跃 页 面 队 列 ， 而 是 根据 调用 参数 priority 的 值 扫描 其 中 一 部 分 ， 只 有 在 
priority 为 0 时 才 扫 描 整 个 队列 (多 716 行 )。 对 于 所 扫描 的 页 面 , 首先 也 要 验证 确实 属于 活跃 负面 ( 见 721 
行 )。 然 后 ， 根 据 页 面 是 否 受到 了 访问 ( 匈 729 行 )， 决 定 增加 或 减少 页 面 的 寿命 。 如 果 减 少 页 面 寿命 以 
后 钊 达 了 0， 那 就 说 明 这 个 页 面 已 经 很 长 时 间 没 有 受到 访问 ， 因 曾 已 经 耗 尽 了 寿命 。 不 过 ， 光 是 耗 尽 了 
寿命 还 不 足以 把 页 面 从 活跃 状态 转 入 不 活跃 状态 ， 还 得 看 是 耕 还 有 用 户 空 间 映 射 。 如 果 页 面 并 不 用 作 
文件 系统 的 读 / 写 缓冲 ， 那 么 只 要 页 面 的 使 用 计数 大 于 1 斌 说 明 还 有 用 户 空 间 映 射 ， 还 不 能 转 入 不 活 
BRAS C744 行 )， 这 样 的 页 面 在 通过 swap_out( ) 扫 撒 柑 应 进程 的 映射 表 时 才能 转 入 不 活跃 状态 。 对 
于 还 不 能 转 入 不 活跃 状态 的 页 面 ， 要 将 其 从 队列 中 的 当前 位 置 移 到 队列 的 尾部 。 反 之 ， 如 果 成 功 地 将 
一 个 页 面 转 入 了 不 活跃 状态 ， 则 根据 参数 oneshot 的 值 决 定 是 否 继续 扫描 。-- 般 来 说 ， 在 活跃 负面 队列 
中 的 负面 使 用 计数 都 人 于 1。 而 当 swap_out( ) 断 开 一 个 页 面 的 映射 而 使 其 转 入 不 活跃 状态 时 ， 则 已 经 将 
页 面 转 入 不 活跃 页 面 队 列 ， 因 而 不 在 这 个 队列 中 了 。 可 是 ， 就 如 代码 中 的 注释 所 言 ， 确 实 存在 着 特殊 
的 情况 ， 在 “页 面 的 换 入 ”中 就 可 以 看 到 。 
再 看 swap out( ) , 那 是 在 mm/vmscan.c 中 定义 的 : 


[kswapd( ) > do to free pages( ) > refill inactive ( ) > swap. out( )] 


297 /* 

298 * Select the task with maximal swap cnt and try to swap out a page. 
299 * N.B. This function returns only 0 or 1. Return values != 1 from 
300 * the lower level routines result in continued processing. 

301 */ 


302 #define SWAP_SHIFT 5 
303 #define SWAP_MIN 8 


304 

305 static int swap_out (unsigned int priority, int gfp_mask) 

306 { 

307 int counter; 

308 int ret = 0; 

309 

310 /* 

311 * We make one or two passes through the task list, indexed by 
312 * assign = (0, 1): 

313 * Pass 1: select the swappable task with maximal RSS that has 
314 * not yet been swapped out. 

315 * Pass 2: re-assign rss swap cnt values, then select as above. 
316 * 

317 * With this approach, there’s no need to remember the last task 
318 * swapped out. If the swap-out fails, we clear swap cnt so the 
319 * task won t be selected again until all others have been tried. 
320 * 

321 * Think of swap cnt as a "shadow rss” - it tells us which process 
322 * we want to page out (always try largest first). 

323 */ 

324 counter = (nr threads << SWAP SHIFT) >> priority; 

325 if (counter < 1) 
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326 
321 
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counter = 1; 


for (; counter >= 0; counter--) { 
struct list_head *p; 
unsigned long max_cnt = 0; 
struct mm struct *best = NULL; 
int assign = 0; 
int found task = 0; 
select: 
spin lock(&mmlist lock); 
p = init mm. mnlist.next; 
for (; p {= &init mm, mmlist; p = p-^next) 1 
struct mm struct *mm = list entry(p, struct mm struct, mmlist); 
if (mm- rss <= 0) 
continue; 
found task++; 
/* Refresh swap cnt? */ 
if (assign == 1) 1 
mm-^swap cnt = (mm->rss >> SWAP SHIFT) ; 
if (mm->swap cnt < SWAP MIN) 
mm-»swap cnt = SWAP MIN; 
j 
if (mm-^swap cnt > max cnt) { 
max ent = mm-2swap cnt; 
best = mm; 


} 


/* Make sure it doesn't disappear */ 
if (best) 

atomic inc(&best-^mm users); 
spin unlock(&mmlist lock); 


/* 
* We have dropped the tasklist lock, but we 
* know that “mm” still exists: we are running 
* with the big kernel lock, and exit mm( ) 
* cannot race with us. 
*/ 
if (!best) | 
if ('assign && found task > 0) | 
assign = 1; 
goto select; 
} 
break; 
) else { 
| ret = swap out mm(best, gfp mask); 
mmput (best) ; 


Ale 存储 管理 





374 break; 
375 } 

376 ) 

377 return _ ret; 
338  ] 


这 个 函数 的 主体 是 一 个 for 循环 ， 循 环 的 次 数 取决 十 counter， 而 counter 又 是 根据 内 核 中 进程 《 包 
括 线 称 ) 的 个 数 和 调用 swap_out( ) 叶 优先 级 〈 最 初 为 6 级 ， 逐 次 上 升 至 0 级》 计算 而 得 的 。 当 优先 级 
为 0 时 ，counter 就 等 于 (nr_threads<< SWAP_SHIFT), EH 32X nr. threads, iX E nr threads 为 当前 系统 中 
进程 的 数量 ,这 个 数值 决定 了 把 页 面 换 出 去 的 “决心 "有 多大, 好 代码 中 外 层 循 坏 的 次 数 ,参数 gfp_mask 
中 是 一 些 控 制 信心。 

在 每 次 循 坏 中 ， 程 序 坛 图 从 所 有 的 进 积 中 找到 一 个 最 合适 的 进程 best. ET sbT lx NAFN] 
页 面 映 射 表 ， 将 符合 条 件 的 页 面 暂时 断 开 对 内 存 页面 的 映射 ， 或 进 “ 步 将 页 面 转 入 不 活跃 状态 ， 为 把 
这 些 页 面 换 出 到 交换 设备 上 作 好 准备 。 

这 里 还 应 指出 ， 这 个 函数 虽然 叫 “swap_out”， 但 实际 上 只 是 为 把 一 些 页 面 换 出 介 父 换 设 备 上 作 好 
准备 ， 仙 并 不 一 定 是 物理 意义 上 的 真 面 换 出 ， 所 以 在 下 而 的 叙 进 中 所 请 “ 换 出 ”是 广义 的 。 那 么 ， 根 
据 什 么 准则 来 找 “ 最 合适 ”的 进程 昵 ? 可 以 说 是 “ 劫 富 济贫 ”与 “轮流 坐庄 ” 相 结合 。 每 个 进程 都 有 
其 白 身 的 虚 存 空间 ， 空 间 中 已 经 分 配 并 建立 了 映射 的 页 面 构成 -个 集合 。 但 是 在 任何 一 个 给 定 的 时 刻 ， 
该 集合 中 的 每 “个 负面 所 对 应 的 物理 页 面 不 一 定 部 在 内 存 中 ， 在 内 存 中 的 往往 只 是 -个 了 集 。 这 个 子 
SPH “CEMA” Cresident set)， 其 大 小 称 为 rss。 在 存储 管理 结构 mm struct 中 有 “个 成 分 就 是 
rss。 以 前 我 们 在 讲 到 这 个 结构 时 把 rss 跳 过 了 ， 因 为 说 来 话 长 。 而 现在 到 了 结合 情景 和 源 代 个 加 以 说 明 
的 时 候 了 。 

代码 中 的 内 层 for 循环 表示 从 第 二 个 进程 开始 扫描 所 有 的 进程 。 内 核 中 所 有 的 task_struct 结构 都 以 
双向 链 连 接 成 一 个 队列 。 而 进程 init_task 是 内 核 中 的 第 一 个 进程 ， 是 所 有 其 他 进程 的 视 宗 。 只 要 内 核 
还 在 运行 ， 这 个 进程 就 “永远 不 沙 ”。 所 以 ， 从 init_task. next task 始 至 init task 小 ， 就 是 扫描 除 第 一 个 
进程 外 的 所 有 进程 。 拟 描 的 日 的 是 从 中 找 出 mm->swap_cnt 为 最 大 的 进程 。 每 个 mm struct 结构 中 的 这 
个 数值 ， 是 在 拒 所 有 进程 的 抽 击 资源 时 都 处 理 了 一 裔 ， 从 而 伍 个 mm_struct 结构 中 的 这 个 数值 部 变 成 
了 0 的 时 候 设 置 好 了 的 , 反映 了 当时 该 进程 占用 内 存 页 面 的 数量 mm->rss。 这 就 寻 像 一 次 “人 口 普 鳃 ”。 
随后 ， 答 次 考究 和 处 理 了 这 个 进程 的 一 个 页 面 ， 就 将 其 mm-»swap ent 1. B Tie EO. 上 所以， 
mm->rss MARY :个 进程 占用 的 内 存 页 面 数量 , 而 mm->swap_cnt 反映 了 该 进程 侍 轮换 出 内 存 页 面 的 
努力 中 尚 木 受到 考察 的 页 面 数量 。 只 要 在 这 - 轮 中 全 少 还 有 一 个 进程 的 页 人 胡 尚 术 受 到 考察 ， 束 一 定 能 
找到 :个 “最 住 对 象 光 一 直到 所 有 进程 的 mm->swap_cnt 都 变 成 了 0, 从 而 打 描 下 来 总 找 个 人 到 一 个 “best” 
时 (439—444 行 )， 再 把 这 里 的 局 部 量 assign ERE 1, HAI 3m. XX- :次 将 每 个 进程 当 前 的 mm->rss 
拷贝 到 mm-»swap. ent 中 ,然后 再 从 最 富有 的 进程 开始 。 但 是 ,所谓 尚 木 受 到 考察 的 页 面 数量 开 不 包括 
最 近 一 次 “ 侧 普 查 ” 以 后 因 页 面 异常 而 换 入 (或 恢复 映射 的 页 而 ,这些 抽 面 的 数量 要 到 下 一 次 “人 
中 普查 ”以 后 才 会 反映 出 来 。 就 每 个 进程 的 角度 向 首 ， 对 内 存 页 血 的 占用 存在 着 典 个 方 回 上 的 运动 : 
一 个 方向 是 因 页 面 异 常 而 有 更 多 的 页 面 建立 起 或 恢复 起 映射 ; 另 “个 方向 则 是 周期 性 地 受到 swap_out( ) 
的 考察 而 被 切断 若干 页 证 的 映射 。 这 凸 个 这 动 的 结合 决定 了 “个 进程 在 特定 时 间 内 对 内 存 和 页 和 的 局 用 。 

找到 一 个 “最 佳 对 象 ”best 以 后 ， 就 此 依次 考察 该 进程 的 映射 龙 ， 将 符合 条 件 的 页 面 换 出 去 。 

页面 的 换 出 具体 是 由 swap. out. mm( ) 来 完成 的 。 当 swap_out_mm( ) 成 功 地 换 出 一 个 页 面 时 运 由 | 1， 
epo, 返 同 负数 则 为 异常 。 在 所 作 之 前 先 通过 356 行 的 atomic_inc( ) 递增 mm struct 结构 中 的 使 
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用 计数 mm users ， 待 完成 以 后 再 由 373 行 的 mmput( ) 将 其 还 原 ， 使 这 个 数据 结构 在 操作 的 期 间 多 了 
一 个 用 户 ， 从 而 不 会 在 中 途 被 释放 。 
FÉ swap_out_mm( ) 的 代码 也 在 vmscan.c H: 


[kswapd( ) > do_try_to_free_pages( ) > refill inactive ( ) > swap_out( ) > swap. out mm( )]| 


257 static int swap out mm(struct mm struct * mm, int gfp mask) 
258 | { 

259 int result - 0; 

260 unsigned long address; 

261 struct vm area struct* vma; 

262 

263 /* 

264 * Go through process’ page directory. 

265 */ 

266 

267 /* 

268 * Find the proper vm-area after freezing the vma chain 
269 * and ptes. 

210 */ 

271 spin_lock (&mm->page_table lock); 

272 address = mm->swap_address; 

273 vma = find_vma(mm, address); 

274 if (vma) { 

2795 if (address < vma->vm start) 

276 address = vma->vym start; 

277 

278 for (G3) 4 

279 result = swap out vma(mm, vma, address, gfp mask); 
280 if (result) 

281 goto out unlock; 

282 vma = vma >vm next; 

283 if (!vma) 

284 break; 

285 address = vma—>vm start; 

286 } 

287 } 

288 /* Reset to 0 when we reach the end of address space */ 
289 mm-»swap address = 0: 

290 mm-»swap cnt = 0; 

291 

292 out unlock: 

293 spin unlock(&mm-^page table lock); 

294 return result; 

295  ] 


HU, mm-»swap address 表示 在 执行 的 过 程 中 要 接着 考察 的 页 面 地 址 。 最 初时 该 地 址 为 0， 到 所 
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有 的 页 面 都 已 考察 了 一 遍 的 时 候 就 又 清 成 0 CU 289 行 )。 程 序 在 一 个 for 循环 中 根据 当前 的 这 个 地 址 
找到 其 所 在 的 虚 存 区 域 vma， 然 后 就 调用 swap_out_vma( ) 试 图 换 出 一 个 负面 。 如 果 成 功 ( 返 回 1)， 这 
一 次 任务 就 完成 了 。 否 则 就 试 下 一 个 虚 存 区 间 。 就 这 样 一 层 - 层 地 往 下 调用 ， 经 过 swap out vma(). 
swap_out_pgd( )、swap_out_pmd( )， 一 直到 try_to_swap_out( )， 试 图 换 出 由 一 个 页 面 表 项 pte 所 指 问 的 
内 存 页 面 。 中 间 这 上 几 个 昂 数 都 在 同一 个 文件 中 ， 读 者 可 以 自行 阅读 。 这 里 我 们 直接 来 看 
try_to_swap_out( )， 因 为 这 是 关键 所 在 。 下 面 ， 我 们 一 步 一 步 来 看 它 的 各 个 瞩 断 : 





[kswapd( ) > do_try_to_free_pages( ) > refill_inactive ( ) > swap, out( ) > swap out mm( ) 
»swap out vma( ) swap. out. pgd( ) > swap. out pmd( ) > try to swap out( )] 


21 /* 
28 * The swap-out functions return 1 if they successfully 
29 * threw something out, and we got a free page. It returns 
30 * zero if it couldn’ t do anything, and any other value 
31 * indicates it decreased rss, but the page was shared. 
32 * 
33 * NOTE! If it sleeps, it *must* return 1 to make sure we 
34 * don t continue with the swap-out. Otherwise we may be 
35 * using a process that no longer actually exists (it might 
36 * have died while we slept). 
37 */ 
38 static int try to swap out (struct mm struct * mm, 
struct vm area struct* vma, unsigned long address, 
pte t * page table, int gfp mask) 
39 | 
40 pte t pte; 
41 swp entry t entry; 
42 struct page * page; 
43 int onlist; 
44 
45 pte = *page table; 
46 if (!pte present (pte)) 
47 goto out failed; 
48 page = pte page(pte): 
49 if ((!IVALID PAGE(page)) || PageReserved (page) ) 
50 goto out failed; 
51 
52 if (lmm->swap cnt) 
53 return 1; 
54 
59 .mm-»swap cnt--; 
56 , 


首先 要 说 明 ， 人 参数 page table 实际 上 指向 一 个 页 面 表 项 、 而 不 是 页 面 表 ， 参 数 名 page_table 有 些 误 
导 。 把 这 个 表 项 的 内 容 赋 给 变量 pte 以 后 ， 就 通过 pte present( ) 来 测试 该 表 项 所 指 的 物理 页 面 是 否 在 内 
存 中 ， 如 果 不 在 内 存 中 就 转向 out_failed， 本 次 操作 就 失败 了 : 
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106 out failed: 
107 return 0; 


Z1 try. to. swap out( ) 返 In| 0 时 ， 其 上 一 层 的 程序 就 会 跳 过 这 个 页 面 ， 而 试 着 换 出 同一 个 页 面 表 中 
映射 的 下 一 个 页 面 。 如 果 个 页 面 表 已 经 穷尽 ， 就 再 往 上 退 一 层 试 卜 一 个 页 和 面 表 。 

有 反之 , 如 果 物 于 页 面 确 在 内 存 中 , 就 通过 pte_page( ) 将 页 而 表 项 的 内 容 换 算 成 指向 该 物理 内 存 页 面 
的 page 结构 的 指针 。 由 于 所 有 的 page 结构 都 在 mem map 数组 中 ， 所 以 (page - mem_map) 就 是 该 页 面 
NS CRP A Pip). BRANT SK TRAN VERE VALE Ui i S max_mapnr， 那 就 不 是 一 个 有 效 
的 物理 负面 ， 这 种 情况 通常 是 因为 物理 页 面 在 外 部 设备 (例如 网 络 接口 卡 ) 上 ， 所 以 也 跳 过 这 -项 。 


118 #define VALID PAGE (page) ((page - mem map) < max mapnr) 


此 外 ， 对 于 保留 在 内 存 中 不 允许 换 出 的 物理 页 面 也 要 跳 过 。 
跳 过 了 这 两 种 特殊 情况 ， 就 要 具体 地 考察 个 页 面 了 ， 所 以 将 mm->swap_cnt Wk 1。 继 续 往 下 看 
try_to_swap_out( ) 的 代码 : 


[kswapd( ) > do try to free pages( ) > refill, inactive ( ) > swap_out( ) > swap_out_mm( ) 
> swap out vma( ) > swap out pgd( ) > swap out pmd( ) > try to swap out( )] 


57 onlist = PageActive (page) : 

58 /* Don’t look at this pte if it’s been accessed recently. */ 
59 if (ptep test and clear young(page table)) | 

60 age page up (page); 

61 goto out failed; 

62 ] 

63 if (tonlist) 

64 /* The page is still mapped, so it can't be freeable... */ 
65 age page down agconly (page); 

66 

67 /* 

68 * If the page is in active use by us, or if the page 

69 * is in active use by others, don’t unmap it or 

70 * (worse) start unneeded IO. 

71 */ 

12 if (page->age > 0) 

Td goto out failed; 

14 


内 存 页 面 的 page 结构 中 ， 字 段 flags 中 的 各 种 标志 位 反映 着 页 面 的 当前 状态 ， 其 中 的 PG. active 标 
SARRIA AEE “R”, 即 是 乔 仍 在 active list BAS: 


230 #definc PageActive (page) Lest bit(PG active, &(page)->flags) 


一 个 可 交换 的 物理 页 而 一 定 在 某 个 LRU 队列 中 ， 不 在 active list. 队列 中 就 说 明 一 定 在 
inactive dirty list 中 或 其 个 inactive clean list 路 ， 等 - -下 就 要 使 用 测试 的 结果 。 
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一 个 映射 中 的 物理 页 而 是 否 应 该 换 出 ， 取 决 于 这 个 和 抽 面 最 近 是 人 骆 受 到 了 访问 。 这 是 通过 inline ef 
数 ptep_test_and_clear_young ( ) 测 试 〈 并 清 0) 的 ， 其 定义 在 include/asm-i386/pgtable.h FP: 


285 static inline int ptep test and clear young (pte t *ptep) 
{ return test and clear bit( PAGE BIT ACCESSED, ptep); } 





如 前 所 述 ， 页 面 表 项 中 有 个 _PAGE_ACCESSED 标志 位 。 当 i386 CPU 的 内 存 映射 机 制 在 道 过 个 
页 面 表 项 将 一 个 虚 存 地 址 映射 成 一 个 物理 地 址 ， 进 而 访问 这 个 物理 地 址 时 ， 就 会 自动 将 该 表 项 的 
_PAGE_ACCESSED 标志 位 设 成 1。 所 以 ， 如 果 pte young( YEH 1, 就 表示 从 十 一 次 对 问 一 个 页 面 表 项 
调用 try_to_swap_out( ) 至 今 ， 该 页 而 至 少 已 经 被 访问 过 一 次 ， 所 以 说 页 面 还 “人 年轻 ”。 一 般 和 而 言 ， 最 和 近 
受到 过 访问 就 预示 着 在 不 久 的 将 来 也 会 受到 访问 ， 所 以 不 官 将 其 换 出 。 取 得 了 此 项 信息 以 石 ， 就 将 页 
面 表 项 中 的 _ PAGE_ACCESSED 标志 位 清 成 0， 上 髓 把 它 写 回 页 面 表 项 ,为 下 一 次 再 米 测 试 这 个 标志 位 作 
好 准备 。 

如 果 抽 面 还 “年 轻 "， 那 就 肯定 个 是 此 加 以 换 出 的 对 象 ， 所 以 也 要 转 到 out failed. Ait, EFRR 
out, failed 之 前 还 此 做 一 点 事情 : 如 果 页 面 偿 活跃 ， 束 要 通过 SetPageReferenced( ) 将 page 数据 结构 中 的 
PG referenced 标志 位 置 成 1。 也 就 是 说 ， 将 页 面 表 项 中 表示 受到 过 访问 的 信息 转移 至 页 面 的 数据 结构 
rh. 而 要 是 页 面 不 在 活跃 页 面 队列 中 ， 则 通过 age page up( ) 增 加 页 面 可 以 留 下 来 “以 观 后 效 ” 的 时 间 ， 
因为 毕竟 这 个 页 面 最 近 山 受到 过 访问 。 


[kswapd( ) > do try to free pages( ) > refill inactive () > swap out( ) > swap_out_mm( ) > swap_out_vma( ) 
»sWwap out pgd()» swap out pmd( ) try to swap out( ) > age page up )] 


125 void age page up(struct page * page) 


1200 { 

127 /* 

128 * We're dealing with an inactive page, move the page 
129 * to the active list. 

130 */ 

131 if (!page-^age) 

132 activate page (page) ; 

133 

134 /* The actual page aging bit */ 
135 page-^»age += PAGE AGE ADV; 

136 if (page-^age > PAGE AGE MAX) 
137 bage->age = PAGE AGE MAX; 
138 } 


转 到 out, failed Wa, SE dr GEO, i: WR RMP ee SO. A, EUR eM HB 
个 进程 和 这 个 页 面 时 ， 如 果 同 一 页 面 表 项 pte 中 的 _ PAGE_ACCESSED 标志 位 仍然 为 0， 那 就 胡 示 不 再 
“年 轻 ” 了 。 读 者 也 许 会 问 ， 既 然 这 个 页 面 是 有 映射 的 (否则 不 会 出 现在 日 标 进程 的 映射 胡 中 并 且 在 内 
存 中 )， 怎 么 又 会 不 在 活跃 页 面 队 询 中 呢 ? 以 后 读者 号 会 在 do_swap_page() PBS, AIA MTR 
复 一 个 不 活跃 页 而 的 映射 时 ， 并 不 立即 把 它 转 入 酒 跃 负 着 队列， 而 把 这 项 虐 作 留 给 前 面 看 全 的 
page_launder( )， 让 其 在 系统 比较 空 闻 时 再 来 处 埋 ， 所 以 这 样 的 奥 徊 有 可 能 个 在 活跃 队列 中 。 

aud tque JUNE - 步 考察 7 了。 当然 ， 也 不 能 因为 这 个 抽 徊 在 过 去 一 个 同期 小 未 受 
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到 访问 就 马上 把 它 换 出 去 ， 还 要 给 它 一 个 “留职 察看 ”的 机 会 。 察 看 多 久 昵 ? 那 就 是 page->age 的 值 ， 
即 页 面 的 寿命 。 如 果 页 面 不 在 活跃 队列 中 则 还 要 先 通过 age page down ageonly( ) 减 少 其 寿命 
(mm/swap.c ): 


103 /* 

104 * We use this (minimal) function in the case where we 
105 * know we can’t deactivate the page (yet). 

106 */ 

107 void age page down ageonly (struct page * page) 

108s { 

109 page->age /= 2: 

110  ) 


只 要 page-»age 尚未 达到 0， 就 还 不 能 将 此 页 面 换 出 ， 所 以 也 要 转 到 out. failed. 
经 过 上 面 这 些 筛选 ， 这 个 贞 面 原则 上 已 经 是 可 以 换 出 的 对 象 了 。 我 们 继续 往 下 看 代码 : 


[kswapd( ) > do_try_to_free_pages( ) > refill inactive ( ) > swap_out( ) > swap_out_mm( ) > swap, out. vma( ) 
> swap_out_pgd( ) > swap, out. pmd( ) > try_to_swap_out( )] 


75 if (TryLockPage (page) ) 

76 goto out_failed; 

17 

78 /* From this point on, the odds are that we're going to 
79 * nuke this pte, so read and clear the pte. This hook 
80 * is needed on CPUs which update the accessed and dirty 
81 * bits in hardware. 

82 */ 

83 pte = ptep get and clear(page table); 

84 flush tlb page(vma, address); 

85 

86 /* 

87 * Is the page already in the swap cache? If so, then 
88 * we can just drop our reference to it without doing 
89 * any IO - it's already up-to-date on disk. 

90 * 

9] * Return 0, as we didn’t actually free any real 

92 * memory, and we should just continue our scan. 

93 */ 

94 if (PageSwapCache(page)) { 

95 entry. val = page->index: 

96 if (pte dirty (pte)) 

97 set page dirty (page) ; 

98 set_swap pte: 

99 swap duplicate(entry); 

100 set pte(page table, swp entry to pte(entry)); 

101 drop pte: 

102 UnlockPage (page) ; 
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103 mm-?rss--; 

104 deactivate page (page) ; 
105 page cache release(page); 
106 out failed: 

107 return 0; 

108 ) 


下 面 对 page 数据 结构 的 操作 涉及 需要 互 斥 ， 或 者 说 独占 的 条 件 下 进行 的 操作 ， 所 以 这 申通 过 
TryLockPage( ) 将 page 数据 锁 住 Cinclude/linux/mm.h): 


183 define TryLockPage (page) test and set bit(PC locked, &(page)~>flags) 


如 果 返 回 值 为 1， 即 表示 PG. locked 标志 位 原来 号 已 经 是 1， 己 经 被 别 的 进程 先 锁 住 了 ， 此 时 就 不 
能 继续 处 理 这 个 page BRAM, ru X IU AMOR. 

加 锁 成 功 以 后 ， 跌 可 以 根据 页 面 的 不 同情 况 作 换 出 的 准备 了 。 

首先 通过 ptep get and clear( ) 再 读 一 次 页 而 表 项 的 内 容 , 并 把 表 项 的 内 容 清 成 0, 暂时 撤销 该 页 面 
HRA HVA 45 行 已 经 读 了 一 次 页 面 表 项 的 内 容 ， 为 什么 现 仁 还 要 再 读 一 次 ， 而 不 仅仅 是 把 表 项 清 
OM? 在 多 处 埋 咒 系统 中 ， 目 标 进程 上 有 可 能 止 在 另 :个 CPU 上 上 运行， 所 以 其 映射 衣 项 的 内 容 有 可 能 已 

如 果 页 面 的 page 数据 结构 已 经 在 为 页 面 换 入 / 换 出 而 设置 的 队列 中 ， 即 数据 结构 swapper space 
内 的 队列 中 ， 那 么 页 面 的 内 容 已 经 在 父 换 设备 上 ， 只 要 把 映射 暂时 断 开 ， 表 示 目 标 进 程 已 经 同意 释放 
这 个 页 面 ， 就 可 以 了 。 不 过 ， 为 页 面 换 入 / 换 出 而 设置 的 队列 也 分 为 “干净 ”和 “入 ”两 个 ， 所 以 如 
果 页 面 已 经 受过 写 访问 就 要 通过 set_page_dirty( ) 将 其 转 入 “用 ”页 面 队列 。 宏 操作 PageSwapCache ( ) 
的 定义 为 Cinclude/linux/mm.h): 





217 #define PageSwapCache (page) test bit(PG swap cache, &(page)-^flags) 


标志 位 PG. swap. cache Jj 1 表示 page 结构 在 swapper. space 队列 中 ， 也 说 明 相应 的 页 面 是 个 普 ; 
的 换 入 7 换 出 页 而 。 此 时 page 结构 中 的 index 字段 是 一 个 32 位 的 索引 项 swp_entry_t， 实 际 上 是 指 内 
页 面 在 交换 设备 上 的 映 象 的 指针 。 丽 数 swap, duplicate ) 的 作用 ， -者 是 要 对 索引 项 的 内 容 作 : 些 检验 ， 
二 者 是 此 递增 相应 盘 上 负 和 面 的 共 合 计数， 其 代码 在 mm/swapfile.c 中 : 


[kswapd( ) > do_try_to_free_pages( ) > refill inactive ( ) > swap_out( ) > swap_out_mm( ) > swap_out_vma( ) 
> swap_out_pgd( ) > swap_out_pmd( ) > try_to_swap_out( ) > swap_duplicate( )] 


820 /* 

821 * Verify that a swap entry is valid and increment its swap map count. 
822 * Kernel lock is held, which guarantees existance of swap device. 

823 * 

824 * Note: if swap map[ ] reaches SWAP MAP MAX the entries are treated as 
825 * "permanent/, but will be reclaimed by the next swapoff. 

826 */ 

827 int swap duplicate (swp entry t entry) 

88 | 
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829 
830 
831 
832 
833 
834 
835 
836 
837 
838 
839 
840 
841 
842 
843 
B44 
845 
846 
847 
848 
849 
850 
851 
852 
853 
854 
855 
856 
857 
858 
859 
860 
861 
862 
863 
864 
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struct swap_info_strucl * p; 
unsigned long offset, type; 
int result = 0; 


/* Swap entry 0 is illegal */ 
if (lentry. val) 
goto out; 
type = SWP TYPE(entry); 
if (type >= nr swapfiles) 
goto bad file; 
p = type + swap info; 
offset = SWP_OFFSET (entry) ; 
if (offset >= p—max) 
goto bad offset; 
if (!p->swap mapLoffset]) 
goto bad_unused; 
/* 
* Entry is valid, so increment the map count. 
*/ 
swap device lock(p); 
if (p-»swap map[offsei] < SWAP MAP MAX) 
p-^swap maploffset]-**; 
else 1 
static int overflow = 0; 
if (overflowt+ < 5) 
printk (“YM: swap entry overflow\n"); 
p-»swap maploffset] = SWAP MAP MAX; 
} 
swap_device_unlock (p) ; 
result = 1: 


return result; 


bad_file: 


printk(’Bad swap file entry %08lx\n”, entry. val); 
goto out; 


bad_offset: 


printk("Bad swap offset entry %081x\n”, entry. val); 
goto out; 


bad unused: 


j 


printk("Unused swap offset entry in swap dup %081x\n”, entry. val); 
goto out; 


以 前 讲 过 ， 数 据 结构 swp entry t 实际 上 是 32 [EET SR. ELA RE aoe O, 但 是 最 低位 吉 


一 定 是 0， 最 高 的 (24 位 ) 位 段 offset 为 设备 上 的 页 而 序号 ， 其 余 的 (7 位 ) 位 段 type 则 其 实 是 交换 设备 本 
身 的 序号 。 以 前 还 讲 过 ， 其 中 的 位 段 type 实际 上 与 “类 型 ” 毫 无 关系 ， 而 是 代表 着 交换 设备 的 序号 。 
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以 此 为 下 标 ， 就 可 仁 内 核 中 的 数组 swap. info 中 找到 相应 交换 设备 的 swap. info. struct 数据 结构 。 这 个 
数据 结构 中 的 数组 swap_map[ ]， 则 记录 着 交换 设备 上 .各 个 负面 的 共享 计数 。 由 于 正在 处 理 中 的 页 面 原 
来 就 已 经 在 交换 设备 上， 其 计数 显然 不 应 为 0， 什 则 就 错 了 ; 男 一 方面 ， 递 增 以 后 也 不 应 达 人 A 
SWAP MAP _ MAX。 递增 竹 上 页 面 的 共享 计数 表示 这 个 页 面 现 在 多 了 一 个 用 户 。 

[| £j try. to. swap. out( ) 的 代码 中 ，100 行 调用 set_pte()， 把 这 个 指 阿 盘 上 页 面 的 索引 项 置 入 相应 的 
页 面 表 项 ， 原 先 对 内 存 页 面 的 映射 就 变 成 了 对 稚 上 页 面 的 映射 。 这 样 ， 当 执行 到 标号 drop. pte 的 地 方 ， 
日 标 进程 的 驻 内 页 面 集合 rss 中 就 减少 了 一 个 页 面 。 由 于 我 们 这 个 物理 页 面 断 开 了 一 个 映射 ， 很 可 能 已 
经 满足 了 变 成 不 活跃 页 面 的 条 件 , 所 以 在 调用 deactivate page ) 时 有 条 件 地 将 其 设置 成 不 活跃 状态 ， 并 
将 页 面 的 page 结构 从 酒 跃 页 面 队列 转移 到 某 个 不 活跃 抽 和 面 队列 《mmyswap.c): 


[kswapd( ) > do_try_to_free_pages( ) > refill inactive ( ) > swap_out( ) > swap out mm( ) > swap out. vma( ) 
»swap out pgd( ) > swap out pmd()» try to swap out( ) > deactivate page ( )] 


189 void deactivate page (struct page * page) 


190 { 

191 spin lock (&pagemap lru lock); 
192 deactivate page nolock (page) ; 
193 spin unlock (&pagemap lru lock); 
194  ] 


[kswapd( ) > do try. to free pages( ) > refill inactive ( )>swap_out( ) > swap out mm( ) > swap out vma( ) 
»swap out pgd( )»swap out pmd()2» try to swap. out( ) > deactivate page ( ) > deactivate page nolock( )] 


154 /亲本 

155 * (de}activate page - move pages from/to active and inactive lists 
156 * @page: the page we want to move 

157 * @nolock - are we already holding the pagemap lru lock? 

158 * 

159 * Deactivate page will move an active page to the right 

160 * inactive list, while activate pago will move a page back 

161 * from one of the inactive lists to the activo list. If 

162 * called on a page which is not on any of the lists, the 

163 * page is left alone. 

164 */ 

165 void deactivate page nolock (struct page * page) 

166 f 

167 /* 

168 * One for the cache, one for the extra reference the 

169 * caller has and (maybe) one for the buffers. 

170 * 

171 * This isn't perfect, but works for just about everything. 
172 * Besides, as long as we don’ t move unfreeable pages to the 
173 * inactive clean list it doesn't need to be perfect... 

174 */ 

175 int maxcount = (page->buffers ? 3 : 2); 

176 page-^age = 0; 
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177 ClearPageReferenced (page); 

178 

179 /* 

180 * Don’t touch it if it’s not on the active list. 

181 * (some pages aren t on any list at all) 

182 */ 

183 if (PageActive(page) && page count (page) <= maxcount && 
!page ramdisk(page)) | 

184 del page from active list(page); 

185 add page to inactive dirty list(page); 

186 } 

187 } 


在 物理 页 面 的 page 结构 中 有 个 计数 器 count， 空 闲 页 耐 的 这 个 计数 为 0， 在 分 配 页 面 时 将 其 设 为 1 
CB — alloc pages( ) 和 rmqueue( ) 的 代码), 此 后 每 当 负 面 增加 一个“ 用户” 如 建立 或 恢复 一 个 映射 时 ， 
就 使 count 加 1。 这 样 ， 如 果 这 个 计数 器 的 值 为 2， 就 说 明 刚 断 开 的 映射 已 经 是 该 物理 页 面 的 最 后 一 个 
映射 。 既 然 最 后 的 映射 凯 经 断 天 ， 这 页 面 当然 是 不 活跃 的 了 。 所 以 把 小 于 等 于 2 作为 一 个 判断 的 准则 ， 
就 是 这 里 的 maxcount。 但 是 ， 这 里 还 要 考虑 一 种 特殊 情况 ， 就 是 当 这 个 页 和 面 是 通过 mmap( ) 映 射 到 普 
通 文件 ， 而 这 个 文件 又 已 经 被 打开 ， 按 常规 的 文件 操作 访问 ， 因 此 这 个 页 面 又 同时 用 作 读 / 写 文 件 的 
缓冲。 此 时 页 面 划 分 成 若干 缓冲 区 ， 其 page 结构 中 的 指针 buffers 指向 一 个 buffer. head 数据 结构 队列 ， 
而 这 个 队列 则 成 了 该 页 面 的 另 个“ 用户” 所 以 ， 当 page->buffers JF 0 时 ，maxcount 为 3 说 明 刚 断 
开 的 映射 是 该 内 存 页 面 的 最 后 一 个 上 映射。 此外， 内 存 页 面 也 有 可 能 用 作 ramdisk， 姑 以 一 部 分 内 存 物 理 
空间 米 横 拟 硬盘 ， 这 样 的 页 面 永远 不 会 挛 成 不 活跃 。 这 样 ， 判 断 的 准则 一 共有 三 条 ， 只 有 有 在 满足 了 这 
二 条 准则 时 才 真 的 吕 以 将 页 面 转 入 不 活跃 队列 。 多 数 有 有 几 户 空间 映射 的 内 存 页 面 都 具有 一 个 映射 ， 此 
时 就 转 入 了 不 活跃 状态 。 辣 时 ， 从 代 僻 中 也 可 看 出 ， 对 不 在 活跃 队列 中 的 页 面 再 调用 一 次 
deactivate_page_nolock( ) 并 无 害处 。 

将 -个 活跃 的 页 面 变 成 不 活跃 时 ， 要 把 该 页 面 的 page 结构 从 活跃 页 面 的 LRU 队列 active_list 中 转 
移 到 一 个 个 活跃 队列 中 去 。 可 是 ， 系 统 中 有 两 种 不 活 贱 页 面 队 列 。 一 种 是 “dirty”， 即 可 能 最 近 已 被 写 
过 ， 因 出 跟 交 换 设备 上 的 负面 不 一 致 的 “ 脏 ” 页 面 队 人 列 ， 这 样 的 页 面 不 能 马上 就 拿 来 分 配 ， 因 为 还 需 
要 把 它 写 出 去 才能 把 它 “ 洗 净 ” 另 PLE “clean”, BUA ERC RRE LNA OR ee” X 
队列 ， 这 样 的 页 面 原则 上 已 可 作为 空闲 页 和 面 分 配 ， 只 是 因为 页 面 中 的 内 容 还 可 能 有 用 ， 因 而 青 予 以 保 
存 … 段 时 间 。 不 活跃 “用 ”页 面 队 列 只 有 一 个 ， 那 就 是 inactive dirty list: 而 不 活跃 “十 净 ” 页 面 队 列 
WARE, tS UU SEK PAA inactive clean list 队列 。 那 么 ， 当 -- 个 不 来 活跃 的 页 面 变 成 不 活 
跃 时 ， 应 该 把 它 转移 到 哪 一 个 队列 中 去 呢 ? 第 一 步 总 是 把 它 转 入 “及 ”页面 队 列 。 将 一 个 page 结构 从 
T EK BA ZI E At LL EERE del page from active list( ) 完 成 的 ， 其 定义 在 include/linux/swap.h F: 





234  #define del page from active list (page) { \ 


235 list del(&(page)-^lru); V 
236 ClearPageActive(page); V 
237 nr active pages-^; \ 

238 DEBUG ADD PAGE \ 

239 ZERO PAGE BUG V 

240 } 
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将 一 个 page 结构 链 入 不 活跃 队列 ， 则 由 add_page_to_inactive_dirty_list( ) 完 成 : 





217 #define add page to inactive dirty list(page) | V 


218 DEBUG ADD PAGE \ 

219 ZERO PAGE BUG \ 

220 SetPageInactiveDirty(page); \ 

221 list add(&(page)-^lru, &inactive dirty list): \ 
222 nr inactive dirty pagest^; \ 

223 page->zone—>inactive dirty_pagest+; \ 

224 } 


这 里 的 ClearPageActive( ) 和 SetPageInactiveDirty( ) 分 别 将 page 结构 中 的 PG. active 标志 位 清 成 0 
和 将 PG_inactive_dirty 标志 位 设 成 1。 注 意 在 这 个 过 程 中 page 结构 中 的 使 用 计数 并 未 改变 。 

又 回 到 try_to_swap_out( ) 的 代码 中 ， 既 然 断 开 了 对 一 个 内 存 页 面 的 映射 ， 就 要 递 减 对 这 个 页 而 的 
使 用 计数 ， 这 是 由 宏 操 作 page_cache_release( )、 实 际 上 是 由 __free_pages( ) 完 成 的 。 


34 #define page cache release (x) free page (x) 


379 define | free page(page) |. free pages((page), 0) 


549 void | free pages(struct page *page, unsigned long order) 


550 { 

551 if (!IPageReserved(page) && put page testzero(page)) 
552 . free pages ok(page, order); 

553  ) 


152 #define put page testzero (p) atomic dec and test (&(p)-?count) 


这 个 函数 通过 put. page. testzero( )， 将 page 结构 中 count 的 值 减 1， 然 后 测试 站 个 达到 了 0， 如 采 
达到 了 0 就 通过 _free_pages_ok( ) 将 该 页 而 释放 。 在 这 里 ， 由 十 页 面 还 企 不 活跃 页 面 队列 中 尚未 释放 ， 
至 少 还 有 这 么 个 引用 ， 所 以 不 会 达到 0。 

至 此 ， 对 这 个 页 面 的 处 理 就 完成 了 ， 于 是 义 人 到 了 标号 out_failed 处 而 返回 0。 为 什么 又 是 到 达 
out failed AAE? 上 其实，try_to_swap_out( ) 仅 在 一 种 情况 下 才 返 思 1， 那 就 是 当 mm->swap_cnt 达到 了 0 
Ait (0,52 行 )。 正 是 这 样 ， 才 使 swap_out_mm( ) 能 够 依次 考察 和 处 理 一 个 进程 的 所 有 页面。 

SEXUM) page 结构 不 在 swapper space 的 队列 中 昵 ? 这 说 明 尚未 为 该 页 面 在 交换 设备 上 建立 起 
映 象 ， 或 者 页 面 来 自 :个 文件 。 读 者 可 以 回顾 一 下 ， 在 因 页 面 碟 映射 而 发 生 缺 页 异常 时 ， 具 体 的 处 理 
取决 于 页 面 所 在 的 区 间 是 侣 提供 了 一 个 vm_operations_struct 数据 结构 ， 并 晶 通 过 这 个 数据 结构 中 的 函 
数 指针 nopage 提供 了 特定 的 操作 。 如 果 提供 了 nopage 操作 ,就 说 明 该 区 间 的 负面 来 自 一 个 文件 《而 不 
是 交换 设备 )， 此 时 根据 虚 存 地 址 可 以 计算 出 在 文件 中 的 页 面 位置 。 否 则 就 是 普通 的 页 面 ， 但 尚未 建立 
相应 的 盘 上 贞 面 〈 因 为 页 面 表 项 为 0)， 此 时 先 把 它 映射 到 空白 页 面 ， 以 后 需 此 号 的 时 候 才 为 之 奶 行 分 
配 一 个 页 面 。 我 们 继续 往 下 看 try_to_swap_out( HIRI, FE 段 就 是 对 此 种 页 面 的 处 理 : 


[kswapd( ) > do_try_to_free_pages( ) > refill inactive ( ) > swap, out( ) > swap out mmí()» swap out vma() 
> swap. out pgd( ) > swap out pmd( ) > try to swap out( )] 
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110 /* 

111 * Is jt a clean page? Then it must be recoverable 
112 * by just paging it in again, and we can just drop 
113 * it.. 

114 * 

115 * However, this won t actually free any real 

116 * memory, as the page will just be in the page cache 
117 * somewhere, and as such we should just continue 
118 * our scan. 

119 * 

120 * Basically, this just makes it possible for us to do 
121 * some real work in the future in "refill inactive( ) ^". 
122 */ 

123 flush cache page(vma, address); 

124 if (!pte dirty (pte)) 

125 goto drop pte; 

126 

127 /* 

128 * Ok, it’s really dirty. That means that 

129 * we should either create a new swap cache 

130 * entry for it, or we should write it back 

131 * to its own backing store. 

132 */ 

133 if (page->mapping) | 

134 set_page_dirty (page) ; 

135 goto drop_pte; 

136 } 

137 

138 /* 

139 * This is a dirty, swappable page. First of all, 
140 * get a suitable swap entry for it, and make sure 
141 * we have the swap cache set up to associate the 
142 * page with that swap entry. 

143 */ 

144 entry = get swap page( ); 

145 if (lentry. val) 

146 goto out unlock restore; /* No swap space left */ 
147 

148 /* Add it to the swap cache and mark it dirty */ 
149 add to swap cache(page, entry); 

150 set page dirty (pago); 

151 goto set swap pte; 

152 

153 out unlock restore: 

154 set pte(page table, pte); 

155 UnlockPage (page) ; 

156 return 0; 

157 } 
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这 里 的 pte_dirty( ) 是 一 个 inline 函数 ， 定 义 于 include/asm-i386/pgtable.h: 


269 static inline int pte_dirty(pte_t pte) V 
{ return (pte). pte low & PAGE DIRTY; } 


让 页面 表 项 中 有 A “D” beak he C PAGE DIRTYO, A5 CPU 对 才 项 所 指 的 内 存 页 面 进行 了 写 
操作 ， 就 自动 把 该 标志 位 设置 成 1， 表示 该 内 存 和 抽 面 已 经 “ 胜 ” 了 。 如 果 此 标志 位 为 0， 就 表 泵 相应 的 
内 存 页 面 尚 未 被 写 过 。 对 这 样 的 页 面 ， 旭 果 很 入 没 有 受到 号 访问 ， 就 可 以 把 映射 解除 《而 个 是 暂时 断 
开 )。 这 是 因为 : 如 果 页 面 的 内 容 是 空 和 ， 亏 么 以 后 需要 时 可 以 髓 来 建立 岗 射 ; 或 者 ， 如 果 页 面 来 自 通 
过 mmap ) 建 并 起 的 文件 映射 ， 则 在 需要 时 可 以 根据 虚拟 地 址 计算 出 页 面 在 文件 中 的 位 置 ( 柑 比 之 下 ， 
交换 设备 上 的 页 面 位 置 不 能 通过 计算 得 到 ， 所 以 必须 把 页 面 的 去 向 存储 在 页 面 表 项 中 )。 所 以 ， 这 里 转 
到 前 面 的 标号 drop. pte 处 。 注 意 在 这 种 情况 下 前 面 的 deactivate page( ) 实 际 上 不 起 作用 ,特别 是 页 和 面 才 
项 已 在 前 面 83 行 清 0, TU page cache release( ) 则 只 是 递减 对 空白 页 面 的 引用 计数 。 

如 果 所 考察 的 负面 是 来 自 遂 过 mmap( ) 建 立 起 的 文件 映射 ， 则 其 page 结构 中 的 指针 mapping 指向 
相应 的 address, space 数据 结构 。 对 于 这 样 的 抽 和 面 ， 如 果 决 定 解除 映射 ， 而 页 血 表 项 中 的 _ PAGE_DIRTY 
标志 位 为 L METH F] drop. pte 处 之 前 ， 先 把 page 结构 中 的 PG, dirty 标志 位 设 成 1， 并 把 页 面 转移 
到 该 文件 映射 的 “ 胜 ” 页 面 队 列 中 。 有 关 的 操作 set page dirty( ) 定 义 十 include/linux/mm.h 以 及 
mm/filemap.c: 


> swap_out_vma( ) swap out pgd( ) > swap. out. pmd( ) > try to swap out( ) > set page dirty( )] 


[kswapd( ) » do to free pages( ) > refill inactive ( ) > swap out( ) > swap, out mn ) 


1871 static inline void set page dirty (struct page * page) 


188 | 

189 if (!test and set bit(PG dirty, &page— flags)) 
190 . set page dirty(page); 

191  ] 

134  /* 

135 * Add a page to the dirty page list. 

136 */ 

137 void | set page dirty (struct page *page) 

138 | 

139 struct address space *mapping = page-2mapping; 
140 

141 spin lock (&pagecache lock); 

142 list del (&page >list): 

143 list_add(&page->list, &mapping->dirty_pages) ; 
144 spin_unlock (&pagecache_lock) ; 

145 

146 mark inode dirty pages (mapping >host); 

147 } 


再 往 下 看 try_to_swap_out( HRES. “SREP UT BREA, PRS PUB MR aE RAR ASE 
访问 ， 又 不 在 swapper_space 的 换 入 / 换 出 队列 中 , 也 不 属于 文件 映射 , (HEE PhS SET Ur md Ky “AE” 
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页 面 。 对 十 这 样 的 页 面 必须 要 为 之 分 配 一 个 稻 上 页 面 ， 并 将 其 内 容 写 到 盘 上 页 面 中 去 。 首 先 通过 
get_swap_page( ) 分 配 一 个 盘 上 页面 ， 这 是 个 安 操作 : 


150 #define get swap page( ) | get swap page(1) 


就 是 说 ， 通 过 __get_swap_page(1) 从 交换 设备 上 分 配 一 个 页 面 。 其 代码 在 mm/swapfilec 中 ， 由 于 
比较 简单 ,我们 把 它 留 给 读者 。 盘 上 页 面 的 使 用 计数 在 分 配 时 设置 成 1， 以 后 每 当 有 进程 参与 共享 同 - 
内 存 页 面 时 就 通过 swap_duplicate( ) 递 增 ， 此 外 在 有 进程 断 开 对 此 页 面 的 喘 射 时 也 要 递增 《〈 见 99 行 ); 
反之 则 通过 swap_free JEM. MRSA ERM AM, HS! out unlock restore 处 恢复 原 有 的 映射 。 

分 配 了 盘 上 页 面 以 后 ， 就 通过 add_to_swap_cache( ) 将 页 面 链 入 swapper_space 的 队列 中 ,以 及 活跃 
页 面 队 列 中 , 这 个 范 数 的 代码 以 前 已 经 看 到 过 了 。 然 后 , 再 通过 set_page_dirty( ) 将 页 面 转 到 不 活跃 “ 脏 ” 
页 面 队列 中 。 至 十 实际 的 写 出 ， 则 前 面 已 经 看 到 是 page_launder( ) 的 事 。 

至 此 ， 对 一 个 进程 的 用 户 空间 页 面 的 扫描 处 理 就 完成 了 。swap_out( ) 是 在 一 个 for 循环 中 调用 
swap_out_mm( ) 的 ， 所 以 每 次 调用 swap_out( ) 都 会 换 出 若干 进程 的 若干 页 面 ， 而 refill inactive() X 
RERI while 循环 中 调用 swap_out( ) 的 ， 一 直 要 到 系统 中 可 供 分 配 的 页 面 , 包括 潜在 可 供 分 配 的 页 徊 在 
内 不 再 短缺 时 为 止 。 到 那 时 ，do_try_to_free_pages( ) 就 结束 了 。 回 到 kswapd( ) 的 代码 中 ， 此 时 活跃 页 
面 队 列 的 情况 可 能 已 经 有 了 较 大 的 改变 ， 所 以 还 要 再 调用 次 refill inactive scan( )。 这 样 ，kswapd( ) 
的 一 次 例 行 路 线 就 基本 走 完了 。 如 前 所 述 ，kswapd( ) 除 定期 的 执行 外 ， 也 有 可 能 是 被 其 他 进程 唤醒 的 ， 
所 以 可 能 有 进程 正在 睡眠 中 等 待 其 完成 ， 因 此 道 过 wake up all( ) 唤 醒 这 些 进程 。 

读者 也 许 在 想 ， 通 过 swap out mm ) 对 每 个 进程 页 面 表 的 打 描 并 不 保证 - 定 能 有 页 面 转 入 不 活路 
状态 , 这样 refill_inactive( ) 岂 不 是 要 无 穷 无 信 地 循环 下 去 ? 事实 上 , 一 来 程序 中 对 循环 的 次 数 有 个 限制 ， 
二 来 对 页 面 表 的 #| 描 是 个 自 适应 的 过 程 。 如 果 在 对 所 有 进程 的 一 轮 扫描 后 转 入 不 活跃 状态 的 页 面 数 量 
不 足 ， WA refill_inactive( ) 就 会 又 回 过 头 来 开始 第 二 轮 扣 撒 。 而 扫描 次 数 的 增加 会 使 页 面 老化 的 速度 也 
增加 ， 因 为 页 面 的 寿命 实际 上 是 以 扫描 的 次 数 为 单位 的 。 这 样 ， 在 第 一 轮 扫描 中 不 符合 条 件 的 页 面 在 
第 二 轮 扫描 中 就 可 能 符合 条 件 了 。 最 后 ， 在 很 特殊 的 情况 下 ， 可 能 最 终 还 是 达 不 到 要 求 ， 此 时 就 调用 
oom kill( ) 从 系统 中 杀 掉 一 个 进程 ， 通 过 牺牲 局 部 来 保障 全 局 。 


最 后 ， 再 来 看 看 线程 kreclaimd 的 代码 ,这 是 在 mm/vscan.c 中 : 


1095 DECLARE WAIT QUEUE HRAD (kreclaimd_wait) ; 


1096 /* 

1097 * Kreclaimd will move pages from the inactive_clean list to the 
1098 * free list, in order to keep atomic allocations possible under 
1099 * all circumstances. Even when kswapd is blocked on IO. 

1100 */ 

1101 int kreclaimd(void *unused) 

1102 { 

1103 struct task struct *tsk - current; 

1104 pg data t *pgdat; 

1105 

1106 tsk-^session = 1; 

1107 tsk-^pgrp = 1; 

1108 strcpy(tsk-^comm, “kreclaimd”) ; 
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sigfillset(&tsk-^blocked); 
current->flags |= PF MEMALLOC; 


while (1) | 
/* 
* We sleep until someone wakes us up from 
* page alloc.c:: | alloc pages( ). 
*/ 


interruptible sleep on(&kreclaimd wait); 


/* 
* Move some pages from the inactive clean lists to 
* the free lists, if it is needed. 


*/ 
pgdat - pgdat list; 
do { 
int i; 


for(i = 0; i < MAX NR ZONES; i++) { 
zone t *zone = pgdat->node_zones + i; 
if (!zone-»size) 
continue; 


while (zone-^frec pages < zone->pages low) | 
struct page * page; 
page = reclaim page (zone); 
if (!page) 
break; 
| free page(page); 


} 
pgdat = pgdat-—>node next; 


} while (pgdat) ; 


HR F kswapd Og fe03, 就 可 以 看 出 二 者 的 初始 化 部 分 十 一样 的 ， 程序 的 结构 也 相似 。 HE 


者 都 把 其 task_struct 结构 中 flags 字段 的 PF_MEMALLOC 标志 位 设 成 1， 表 不 这 山 个 内 核 线 程 都 起 页 
面 管理 机 制 的 维护 者 。 事 实 上 ， 在 以 前 的 版 本 中 只 有 一 个 线程 kswapd， 在 2.4 版 中 才 把 其 中 的 - -部 分 
独立 出 来 成 为 “个 线程 。 不 过 ， 这 一 次 是 通过 reclaim_page( HET ROHR MAREK “TI” 
页 面 队 列 ， 从 中 国 收 页 硬 加 以 释放 。 这 个 函数 的 代码 在 mm/vmscan.c 中 ， 我 们 把 它 留 给 读者 自己 疯 读 。 
在 阅读 了 外 血 这 些 代 码 以 后 ， 读 者 已 经 不 至 于 感到 困难 了 。 


[kreclaimd( ) > reclaim_page( )] 


381 
382 


/** 
* reclaim page - reclaims one page from the inactive clean list 
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* @zone: reclaim a page from this zone 

水 

* The pages on the inactive clean can be instantly reclaimed. 
* The tests look impressive, but most of the time We ll grab 
* the first page of the list and exit successfully. 

*/ 


truct page * reclaim page (zone t * zone) 


struct page * page - NULL; 
struct list head * page lru; 
jnt maxscan; 


/* 
* We only need the pagemap lru lock if we don't reclaim the page, 
* but we have to grab the pagecache lock before the pagemap lru lock 
* to avoid deadlocks and most of the time we'll succeed anyway. 
*/ 
spin lock(&pagecache lock); 
spin lock(&pagemap lru lock); 
maxscan = zone->inactive clean pages; 
while ((page lru = zone inactive clean list.prev) != 
&zone->inactive clean list && maxscan--) | 
page = list entry(page lru, struct page, lru); 


/* Wrong page on list?! (list corruption, should not happen) */ 
if (!PageInactiveClean(page)) ( 

printk (“YM: reclaim page, wrong page on list. n^); 

list del(page lru); 

page-2zone-^2inactive clean pages--; 

continue; 


} 


/* Page is or was in use? Move it to the active list. */ 
if (PageTestandClearReferenced (page) |; page-^age > 0 |: 
(!pagc—^buffers && page count (page) > 1)) 1 
del page from inactive clean list (page) ; 
add page to active list (page); 
continue; 


} 


/* The page is dirty, or locked, move to inactive dirty list. */ 
if (page->buffers || PageDirty(page) || TryLockPage(page)) { 

del page from inactive clean list(page); 

add page to inactive dirty list (page) ; 

cont inue; 


} 


/* OK, remove the page from the caches. */ 
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431 if (PageSwapCache(page)) { 
432 . delete from swap cache (page); 
433 goto found page; 

434 } 

435 

436 if (page->mapping) { 

437 . remove inode page(page); 

438 goto found page; 

439 ) 

440 

441 /* We should never ever get here. */ 
442 printk(KERN ERR "VM: reclaim page, found unknown page\n”): 
443 list del(page lru); 

444 zone-»inactive clean pages--; 

445 UnlockPage (page) ; 

446 j 

441 /* Reset page pointer, maybe we encountered an unfreeable page. */ 
448 page = NULL; 

449 golo out; 

450 

451 found page: 

452 del page from inactive clean list (page); 
453 UnlockPage (page) ; 

454 page-^age = PAGE AGE START; 

455 if (page count(page) !- 1) 

456 printk( VM: reclaim page, found page with count %d!\n’, 
457 page count (page)) ; 

458 out: 

459 spin unlock(&pagemap lru lock); 

460 spin unlock(&pagecache lock); 

461 memory _pressurett; 

462 return page; 

463 } 


29 册 面 的 换 入 





在 i386 CPU 将 个 线性 地 址 酉 射 成 物理 地 址 的 过 程 中 ， 如 果 该 地 址 的 映射 已 经 建立 ， 但 是 发 现 相 
应 页 而 表 项 或 里 录 项 中 的 P (Presen) 标志 位 为 0， 则 表示 相应 的 物理 页 而 不 在 内 存 ， 从 而 寺 法 完成 本 
次 内 存 访 问 。 从 理论 上 说 ， 也 许 应 该 把 这 种 情况 称 为 “受阻 ” 而 不 是 “失败 ”， 因 为 映射 的 关系 毕竟 已 
经 建 六 ， 埋 应 与 尚未 建立 映射 的 情况 有 所 区 别 ， 所 以 我 们 称 之 为 “ 断 开 ”但 是 ，CPU 的 MMU 硬件 并 
不 区 分 这 两 种 不 同 的 情况 ， 只 此 P 标志 位 为 0 就 部 认为 是 页 面 映射 失败 ，CPU 就 会 产 尘 一 次 “页 面 异 
常 ”(Page Fault)。 事 实 上 ，CPU 在 映射 过 程 中 首先 看 的 就 是 页 面 表 项 或 目录 项 中 的 P 标志 位 。 只 要 了 
标志 位 为 0， 其 余 各 个 位 段 的 值 就 无 意义 了 。 择 于 当 个 页 耐 不 在 内 存 中 时 ， 利用 负面 表 项 指向 一 个 拌 
上 页 面 ， 于 是 软件 的 事 。 所 以 ， 区 分 失败 的 原因 到 底 是 因为 页 而 不 在 内 存 ， 还 是 因为 映射 尚 末 建 立 ， 
万 是 软件 , 也 就 是 页 面 异常 处 理 程序 的 事 。 在 “越界 访问 ?的 情景 中 ,我们 曾 看 到 在 函数 handle_pte_fault( ) 
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中 的 开头 几 行 : 
[do. page. fault( ) > handle_mm_fault( ) > handle_pte_fault( )] 


1153 static inline int handle pte fault (struct mm struct *mm, 


1154 struct vm area struct * vma, unsigned long address, 
1155 int write access, pte t * pte) 

1156 -4 

1157 pte t entry; 

1158 

1159 /* 

1160 * We need the page table lock to synchronize with kswapd 
1161 * and the SMP-safe atomic PTE updates. 

1162 */ 

1163 spin lock(&mm-»page table lock); 

1164 entry = *pte; 

1165 if (!pte present(entry)) | 

1166 /* 

1167 * If it truly wasn’t present, we know that kswapd 
1168 * and the PTE updates will not touch it later. So 
1169 * drop the lock. 

1170 */ 

1171 spin unlock(&mm-^»page table lock); 

1172 if (pte none(entry)) 

1173 return do no page(mm, vma, address, write access, pte); 
1174 return do swap page(mm, vma, address, pte, 


pte to swp entry(entry), write access); 
1175 } 


» „ç c7 č a č a ç æ 


这 里 ， 首 先 区 分 的 是 pte_present( )， 也 就 是 检查 表 项 中 的 P 标志 位 ， 看 看 物理 页 面 是 否 人 在 内 存 中 。 
WERE, WEM pte none( ) 检 查 表 项 是 否 为 空 ， 即 全 0。 如 果 为 空 就 说 明 映 射 尚 未 建立 所 以 要 
do_no_page( )。 这 在 以 前 的 情景 中 已 经 看 到 过 了 。 反 之 ， 如 果 非 空 ， 就 说 明 映 射 凯 经 建立 ， 只 是 物理 
贞 面 不 在 内 存 中 ,所 以 要 通过 do_swap_page( ), 从 交换 设备 上 换 入 这 个 页 面 。 本 情景 全 handle_pte_fault( ) 
之 前 的 处 理 以 及 执行 路 线 都 与 越界 访问 的 情景 相同 ， 所 以 我 们 直接 进入 do_swap_page( )。 这 个 消 数 的 
代码 在 mm/memory.c P: 


[do_page_fault( ) > handle, mm fault( ) > handle pte fault( ) > do_swap_page( )] 


1018 static int do swap page(struct mm struct * mm, 

1019 struct vm area struct * vma, unsigned long address, 

1020 pte t * page table, swp entry t entry, int write access) 
1021 { 

1022 struct page *page = lookup. swap, cache (entry) ; 

1023 pte t pte; 

1024 

1025 if (!page) { 
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1026 lock kernel( ); 


1027 swapin readahead (entry); 

1028 page = read swap cache(entry), 

1029 unlock kernel ( ); 

1030 if (!page) 

1031 return -l; 

1032 

1033 flush page to ram(page); 

1034 flush icache page(vma, page); 

1035 } 

1036 

1037 mm- >rsstt+; 

1038 

1039 pte = mk pte(page, vma~>vm_page_ prot); 

1040 

1041 /* 

1042 * Freeze the "shared"ness of the page, ie page count + swap count. 
1043 * Must lock page before transferring our swap count to already 
1044 * obtained page count. 

1045 */ 

1046 lock_page (page) ; 

1047 swap free (entry) ; 

1048 if (write access && !is page shared (page)) 

1049 pte = pte mkwrite(pte mkdirty(pte)); 

1050 UnlockPage (page) ; 

1051 

1052 set pte(page table, pte); 

1053 /* No need to invalidate ~ it was non-present before */ 
1054 update mmu cache(vma, address, pte); 

1055 return 1; /* Minor fault */ 

1056 — ) 


先 看 看 调用 时 传 过 来 的 参数 是 些 什 么 。 建 议 读者 先 回 到 前 面 递 过 越界 访问 扩充 堆栈 的 情景 中 ， 顺 
着 CPU 的 执行 路 线 直 一遍， 摘 清 楚 这 些 参数 的 来 龙 太 脉 。 参数 表 中 的 mm、vma 还 有 address 是 一 日 了 
然 的 ， 分 别 起 指向 当前 进程 的 mm_struct 结构 的 指针 、 所 属 虚 存 区 间 的 vm. area, struct 结构 的 指针 以 及 
映射 失败 的 线性 地 址 :。 

参数 page. table 指向 映射 失败 的 页 面 表 项 ， 而 entry 则 为 该 表 项 的 内 容 。 我 们 以 前 说 过 ， 当 物理 页 
向 在 内 存 中 时 ， 页 面 表 项 是 A pte_t 结构 ， 指 向 SAAR: 而 当 物 理 页 面 不 在 内 存 中 时 ， 则 是 一 
个 swap_entry_t 结构 ， 指 向 - 个 盘 上 页 面 。 二 者 实际 上 都 是 32 位 雹 符号 整数 。 这 里 紫 指 出， 所谓“ 不 
在 内 存 中 ”是 逻辑 意义 上 的 ， 是 对 CPU 的 页 面 峡 射 硬件 而 言 ， 实 际 上 这 个 页 而 很 叮 能 在 不 活跃 页 面 队 
列 中 ， 其 至 在 活跃 页 面 队列 中 。 

还 有 一 个 参数 write access, 表示 当 映 射 失败 时 所 进行 的 访问 种 类 ( 读 / 写 ), 这 是 在 do. page. fault( ) 
的 switch 1&7) P CDL arch/i386/fault.c) 根据 CPU 产生 的 出 错 代码 error. code 的 bit] HEN GEE, 
A switch HAY, “default:” 5j “case 2:” 之 间 没 有 break 语句 )。 此 后 便 逐 屋 传 了 下 来 。 

H1 9928 MIRAE TE, MA entry 是 指向 一 个 盘 上 页 面 的 类 似 于 指针 的 索引 项 《加 上 若干 标志 
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位 )。 该 指针 逻辑 上 分 成 两 部 分 : 第 一 部 分 是 页 而 交换 设备 (或 文件 ) 的 序号 ; 第 二 部 分 是 页 向 在 这 个 
设备 上 《或 文件 中 ， 下 同 ) 的 位 移 ， 其 实 也 就 是 抽 面 序号 。 两 部 分 合 在 一 起 就 惟一 地 侧 定 了 了 一 个 盘 上 
页 面 。 供 页 面 交换 的 设备 上 第 一 个 页 面 〈 序 号 为 0〉 是 保留 不 用 的 ， 所 以 entry 的 值 不 可 能 为 伞 0。 这 
REA RE AAR EY P] A FX o 

处 理 一 次 因 缺 页 而 引起 的 页 面 异常 时 , TA EV BY A td AE BITE swapper_space 的 换 
入 / 换 出 队列 中 尚未 最 后 释放 。 如 果 是 的 话 那 环 省 事 了 。 所 以 ， 要 先 调用 lookup_swap_cache( )。 这 不 
函数 是 在 swap_state.c 中 定义 的 ， 我 们 把 它 留 给 读者 目 己 阅读 。 

如 果 没 有 找到 ， 就 是 说 以 前 用 十 这 个 虚 存 页 面 的 内 存 页 硬 己 经 释放 ， 现在 其 内 容 仪 仔 在 于 盘 上 了 ， 
那 就 要 通过 read_swap_cache( ) 分 配 一 个 内 存 抽 面 ， 并 有 旦 从 盘 上 将 其 内 容 读 进来 。 为 什么 在 此 之 前 要 先 
调用 swapin_readahead( ) 昵 ? 当 从 磁盘 |: 读 的 时 候 ， 每 次 仅仅 读 一 个 页 面 想 不 经 济 的 ， 因 为 每 次 读 松 部 
要 经 过 在 磁盘 上 有 寻 道 使 做 头 定 位 ， 而 避 道 所 需 的 时 间 实 际 上 比 磁头 到 位 以 后 读 一 个 页 面 所 需 的 时 间 要 
长 得 多 。 所 以 ， 比 较 经 济 的 办 法 是 ;既然 必需 经 过 寻 道 ， 就 干脆 -次 多 读 儿 个 页 面 进 米 ， 称 为 “个 页 
面 集群 〈cluster)。 由 于 此 时 并 非 每 个 读 入 的 页 面 都 是 立即 需要 的 ， 所 以 是 “ 预 读 ”(read ahead). Mik 
进来 的 页 面 都 暂时 链 入 活跃 页 面 队 列 以 及 swapper_space 的 换 入 / 换 出 队列 中 ,如 果实 际 上 人 确实 不 需 发 
就 会 由 进程 kswapd 和 kreclaimd 在 一 段 时 间 以 后 加 以 回收 。 这 样 ， 当 调用 read_swap_cache( ) 时 ， 通 种 
所 需 的 页 面 已 经 在 活跃 页 面 队列 中 而 只 需要 把 它 找到 就 行 了 。 但 是 ， 也 有 可 能 预 读 时 因为 分 配 不 到 足 
够 的 内 存 页 面 而 失败 ， 那 样 就 真 的 要 再 来 读 一 次 ， 调 这 一 次 却 真是 只 读 入 个 页 面 了 。 细 心 的 读者 可 
能 会 问 ， 这 两 行程 序 是 紧 挨 着 的 ， 为 什么 在 前 一 行 语句 中 因 分 配 不 到 足够 的 内 存 页 面 而 失败 ， 到 紧 接 
着 的 下 一 行 就 有 可 能 成 功 昵 ?这 是 因为 ， 在 分 配 内 存 页 面 失败 时 ， 内 核 可 能 会 调度 其 他 进程 先 运行 ， 
而 被 调度 运行 的 进程 可 能 会 释放 出 一 些 内 存 页 面 , 甚至 被 调度 运行 的 进程 可 能 恰好 就 是 kswapd。 因此 ， 
第 一 次 分 配 内 存 页 面 失败 并 不 一 定 说 明 紧 接着 的 第 -次 也 会 失败 。 要 明白 这 一 点 ， 我 们 可 以 青 来 看 一 
Fé% | alloc pages ) 中 的 一 个 片段 ; 


382 wakeup_kswapd (0) ; 

383 if (gfp mask & __GFP_WAIT) | 

384 | set current state(TASK RUNNING) ; 
385 current->policy |= SCHED YIELD: 
386 schedule( ); 

387 } l 


无 论 是 swapin_readahead( ) 还 是 read_swap_cache( ), 在 申请 分 配 内 存 页 面 时 都 把 调用 参数 gfp_mask 
"BÍ GFP WAIT 标志 位 置 成 1， 所 以 当 分 配 不 到 内 存 页 面 时 都 会 自愿 暂时 礼让 ， 让 内 核 调度 其 他 进 
程 先 运行 。 由 于 在 此 之 前 先 唤 配 了 kswapd， 当 本 进程 被 调度 恢复 运行 时 ， 也 就 是 从 schedule( ) 返 回 时 ， 
再 次 试图 分 配 页 面 已 有 可 能 成 功 了 。 即 使 在 swapin_readahead( ) 中 又 失败 了 ， 4 read_swap_cache( ) 中 再 
来 一 次 ， 也 还 是 有 可 能 〈 而 及 多 半 能 够 ) 成功。 当然 ， 也 有 可 能 二 者 都 失败 了 ， 那 样 do_swap_page( ) 
也 就 失败 了 ， 所 以 在 1031 行 返 回 一 !。 这里， 我 们 就 不 深入 到 swapin_readahead( ) 路 去 了 ， 读 省 可 以 
白 行 阅读 。 而 read swap cache( ) 实 际 上 起 read_swap_cache_async( )， 只 是 把 调用 参数 wait EX 1, % 
示 要 等 待 读 入 完成 (所 以 实际 上 是 同步 的 谈 和 信 )。 


125 #define read swap cache(entry) read swap cache async(entry, 1); 


函数 read, swap. cache, async( ) 的 代码 在 mm/swap_state.c FP: 
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[do_page_fault( ) > handle mm fault( ) > handle pte fault() > do swap page() 
»read swap cache async( )] 


204 
205 
206 
207 
208 
209 
210 
211 
212 
213 
214 
215 
216 
217 
218 
219 
220 
221 
222 
223 
224 
225 
226 
227 
228 
229 
230 
231 
232 
233 
234 
230 
236 
237 
238 
239 
240 
241 
242 
243 
244 
245 
246 
247 
248 


/* 

* Locate a page of swap in physical memory, reserving swap cache space 
* and reading the disk if it is not already cached. If wait--0, we are 
* only doing readahead, so don't worry if the page is already locked. 


* 
* A failure return means that either the page allocation failed or that 
* the swap entry is no longer in use. 


*/ 


struct page * read swap cache async(swp entry t entry, int wait) 
{ 

struct page *found_ page = 0, *new_page; 

unsigned long new_page_addr; 


/* 

* Make sure the swap entry is still in use. 

*/ 

if (!swap duplicate(entry)) /* Account for the swap cache */ 
goto out; 

/* 

* Look for the page in the swap cache. 

*/ 


found page - lookup swap cache(entry); 
if (found page) 
goto out free swap; 


new page addr = __ get free page(GFP USER); 
if (!new page addr) 

goto out free swap; /* Out of memory */ 
new page = virt to page(new page addr); 


/* 

* Check the swap cache again, in case we stalled above. 
x/ 
found page - lookup swap cache(entry); 

if (found page) 

goto out free page; 

/* 

* Add it to the swap cache and read its contents. 
*/ 

lock page(new page); 
add to swap cache(new page, entry); 

rw swap page(READ, new page, wait); 

return now page; 
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249 out free page: 


250 page cache release(new page); 
251 out free swap: 

252 swap free(entry); 

253 out: 

254 return found page; 

255  ] 


读者 也 许 注意 到 了 ， 这 里 两 次 调用 了 lookup swap cache( )。 第 一 次 是 很 好 理解 的 ， 因 为 
swapin_readahead( ) 也 许 已 经 把 目标 页 面 读 进来 了 ， 所 以 要 先 从 swapper_space 队列 中 寻找 一 次 。 这 一 
方面 是 为 了 节省 一 次 从 设备 读 入 ; 另 一 方面 ， 更 重要 的 是 防止 同一 个 页 面 在 内 存 中 有 两 个 副本 。 可 是 
为 什么 在 找 不 到 、 因而 为 此 分 配 了 一 个 内 存 页 面 以 后 又 来 寻找 一 次 呢 ? 这 是 因为 分 配 内 存 页 面 的 过 程 
有 可 能 受阻 ， 如 果 - “时 分 配 不 到 页 面 ， 当 前 进程 就 会 睡眠 等 待 ， 计 划 的 进程 先 运 行 。 而 当 这 个 进程 再 
次 被 调度 运行 , 并 成 功 地 分 配 到 物理 页 面 从 __get_free_page( ) 返 回 时 , 也许 另 一 个 进程 已 经 先 把 这 个 页 
面 读 进 来 了 ， 所 以 要 再 检查 一 次 。 如 果 确 实 需要 从 交换 设备 读 入 ， 则 通过 add to swap. cache( ) 将 新 分 
配 的 物理 页 面 (确切 地 说 是 它 的 page 数据 结构 ) 挂 入 swapper_space 队列 以 及 active list AIP, XAR 
数 的 代码 读者 已 经 看 到 过 了 。 至 于 rw_swap_page( )， 读 者 可 以 在 学 习 了 块 设备 虹 动 一 章 以 后 回 过 来 阅 
读 。 调 用 read_swap_cache( ) 成 功 以 后 ， 所 要 的 页 面 肯定 已 经 在 swapper_space 队列 以 及 active list 队列 
中 了 ， 并 且 马 上 就 要 恢复 映射 。 

这 里 要 着 重 注 意 - 一 下 对 盘 上 页 而 的 共享 计数 。 首 先 ， 一 :开始 时 在 221 行 就 通过 swap. duplicate( ) 递 
增 了 租 上 页 面 的 共享 计数 。 如 果 在 缓冲 队列 中 找到 了 所 项 的 页 面 而 无 需 从 交换 设备 赎 入 ， 则 在 252 fT 
通过 swap free( ) 抵 消 对 共享 计数 的 递增 。 反 之 ， 如 果 需 要 从 交换 设备 读 入 页 面 , 则 不 调用 swap_free( )， 
所 以 盘 上 页 面 的 共享 计数 加 了 1. 87 AS, [815 do, swap. page( ) 以 后 ,在 1047 行 又 调用 了 一 次 swap_free( )， 
使 盘 上 页 面 的 共享 计数 减 1。 这 么 一 来 ， 情 况 就 变 成 了 这 样 : 如 果 从 交换 设备 读 入 页 面 ， 则 盘 上 页 面 的 
共享 计数 保持 不 变 ;而 如 果 在 缓冲 队列 中 找到 了 所 需 的 页 面 ， 则 共享 计数 减 1。 对 此 ， 读 者 个 妨 回 过 去 
看 -下 try_to_swap_out( ) 中 的 99 行 。 在 那里 ， 当 断 开 一 个 页 面 的 映射 时 ， 通 过 swap_duplicate( ) 递 增 了 
盘 上 页 面 的 共享 计数 。 而 现在 恢复 映射 则 使 共享 计数 减 1， -者 是 互相 对 应 的 。 

还 要 注意 对 内 存 页 面 ， 即 其 page 结构 的 使 用 计数 。 首 先 ， 在 分 配 一 个 内 存 抽 面 时 把 这 个 计数 设 成 
1。 然 后 ,在 通过 add_to_swap_cache( ) 将 其 链 入 换 入 / 换 出 队列 人 或 文件 映射 队列 ) 和 和 LRU BÀ FII active, list 
时 ,又 在 add to page cache. locked( ) 中 通过 page cache get( ) 递 增 了 这 个 计数 ， 所 以 当 有 、 并 县 只 有 一 
个 进程 映射 到 这 个 换 入 / 换 出 页 面 时 ， 其 使 用 计数 为 2。 如 果 页 面 来 自 文件 映射 ， 则 由 于 同时 又 与 文件 
ik/ 写 缓 冲 区 相 联 系 ， 又 多 个“ 用户” 所 以 使 用 计数 为 3。 但 是 ， 还 有 一 种 特殊 情况 ， 屠 就 是 通过 
swapin_readahead( ) 预 读 进 来 的 页 面 。 


[do page. fault( ) > handle mm, fault( ) > handle. pte. fault( ) > do swap. page( ) > swapin readahead( )] 


990 void swapin_readahead (swp entry t entry) 

991 { 

1001 for (i = 0; i < num; offsett++, i++) 1 

1009 /* Ok, do the async read-ahead now */ 
1010 new page = read swap cache async( 
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SWP_ENTRY (SWP TYPE (entry), offset), 0); 


1011 if (new_page != NULL) 

1012 page cache release (new page); 

1013 swap free(SWP ENTRY(SWP TYPE(entry), offsei)); 
1014 } 

1015 return; 

1016 } 





在 swapin readahead( ) 中 ， 循 坏 地 调用 read. swap. cache async( ) 分 配 和 读 入 若干 页 面 ， 因 而 在 从 
read swap cache async( ) 返 回 时 ， 每 个 页 面 的 使 用 计数 都 是 2。 但 是 ， 在 循环 中 马上 又 通过 
page cache release( ) 递 减 这 个 计数 ， 因 为 预 读 进 米 的 页 面 并 疫 有 进程 在 使 用 。 于 是 ， 这 些 页 面 就 成 了 
特殊 的 页 面 ， 它 们 在 active list 中 ， 而 使 用 计数 却 是 1。 以 后 ， 这 些 页 面 或 者 是 被 某 个 进程 “认领 ” 
从 而 使 用 计数 变 成 2: 或 者 是 在 段 时 间 以 后 仍 无 进程 认领 ， 最 后 被 refill_inactive_scan( ) 移 入 不 活跃 
Al CT, mm/vmscan.c 的 744 行 )， 孝 才 是 使 用 计数 为 1 的 页 而 应 该 呆 的 地 方 。 

回 到 do_swap_page( )fJfXtd'|',. 3x H flush. page to. ram( ) 和 flush_icache_page( ) 对 十 i386 处 理 
需 均 为 空 操 作 。 代 和 码 中 通过 pte mkdirty( ) 将 页 面 表 项 中 的 D 标志 位 置 成 1]， 表 示 该 页 面 忆 经 “ 胜 ” 了 ， 
并 日 通过 pte_mkwrite( ) 将 页 面 表 项 中 的 _PAGE_RW 标志 位 也 置 成 1。 读 者 也 许 会 问 : 怎么 可 以 赁 着 当 
前 的 访问 是 次 写 访问 就 拒 页 面 表 项 设置 成 允许 写 ? 万 一 本 来 就 应 该 有 写 保护 的 呢 ? 答案 是 ， 如 果 那 
样 的 话 就 根本 到 达 不 了 这 个 地 方 。 读者 不 妨 回 过 水 去 看 看 do_page_fault( ) 中 switch 语句 的 case 2. 在 那 
里 ， 如 果 页 面 所 属 的 区 间 不 允许 写 的 话 CVM. WRITE 标志 位 为 0)， 就 转 到 bad area 去 了 。 还 要 注意 ， 
区 间 的 可 写 标 志 VM. WRITE 与 负面 的 可 写 标志 _PAGE_RW 是 不 同 的 .。VM_WRITE 是 个 相对 静态 的 标 
志 位 ; (fT PAGE RW 则 上 网 为 动态 ， 只 表示 当前 这 :个 物理 内 存 页 面 是 否 允 许 写 访问 。 只 有 在 
VM WRITE 为 1 的 前 提 下 ，_PAGE_RW 才 有 可 能 为 1， 但 却 并 不 一 定 为 1。 所 以 ,在 1039 行 中 ， 根 
据 vma->vm_page_prot 构筑 一 个 页 面 表 项 时 ， 表 项 的 _ PAGE_RW 标志 位 为 0 (注意 VM WRITE 是 
vma-»vm flags 而 不 是 vma-»vm page prot 中 的 一 位 )。 读 者 还 可 能 会 问 ， 那 样 。 来， 要 是 当前 的 访问 
怡 好 是 读 访 问 ， 这 个 页 而 不 就 永远 不 允许 写 了 吗 ? 不 要 紧 ， 发 生 写 访问 时 会 因 访 问 权 限 不 符 而 引起 另 
一 人 次 页 面 异常 。 那 时 ,就 会 在 handle_pte_fault( ) 中 调用 do_wp_page(), 将 页 面 的 访问 权限 作出 改变 (如 
果 需 要 cow, Bll copy_on_write 的 话 ， 也 是 在 那里 处 理 的 )。 我 们 将 do wp. page ) 留 给 读者 ， 一 来 是 因 
为 简 帆 的 关系 ， 二 来 读者 现在 对 存储 管理 已 经 比较 熟悉 ， 应 该 不 会 有 太 大 的 困难 了 。 

至 于 紧 接 着 的 update mmu cache( )， 对 于 i386 CPU 只 是 个 空 控 作 ， 因 为 i1386 的 MMU 是 与 CPU 
洁 成 一 体 的 。 


2.10 内核 缓冲 区 的 管理 


可 想 而 知 ， 内 核 在 运行 中 常常 会 需 旨 使 用 一 些 缓冲 区 。 例 如 ， 当 要 建立 一 个 新 的 进程 时 就 要 增加 
一 个 task struct 结构 ， 而 当 进 程 撤 销 时 就 要 释放 本 进程 的 task. 结构 。 这 些小 块 存 储 空间 的 使 用 并 不 局 
眼 于 条 一 个 子 程序 ， 否 则 就 吓 以 作为 这 个 子 程序 的 启 部 变量 而 使 用 堆栈 空间 了 。 另 外 ， 这 些小 块 存储 
空间 又 是 动态 变化 的 ， 不 像 用 于 内 存 页 面 管理 的 page 结构 那样 ， 有 多 大 的 内 存 就 有 多 少 个 page 结构 ， 
构成 一 个 静态 的 阵列 。 由 于 事先 根本 无 法 预测 运行 中 各 种 不 同 数据 结构 对 缓冲 区 的 需求 ， 不 适合 为 每 
一 种 可 能 用 到 的 数据 结构 建立 “个 “缓冲 池 ”， 因 为 那样 的 话 很 可 能 会 出 现 有 些 缓冲 池 已 经 用 尽 和 而 有 些 
绥 冲 池 中 却 有 大 量 缓冲 区 空闲 的 局 面 。 因 此 ， 只 能 采用 更 其 全 局 性 的 方法 。 
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者 么 ， 用 什么 样 的 方法 昵 ?” 如 果 采 用 像 用 户 空间 中 的 malloc( ) 那 样 的 动态 分 配 办 法 ， 从 一 个 统一 
的 存储 空间 “ 堆 ”(heap〉 中 ， 需 要 用 多 少 就 切 下 多 大 一 块 ， 不 用 了 束 归 还 ， 则 有 几 个 缺点 需要 考虑 改 
it: 

e AWAZ, TRE “MHL”, JERAT ASI BAe A AANE 


e 每 次 分 配 得 到 所 震 大 小 的 缓冲 区 以 后 ， 都 要 进行 初始 化 。 内 核 中 频繁 地 使 用 些 数 据 结 构 ， 这 
些 数 据 结构 中 相当 一 部 分 成 分 需要 某 些 特殊 的 初始 化 〈 例 如 队列 头 部 等 ) 而 并 非 简 单 地 清 成 全 
0。 如 果 释 放 的 数据 结构 可 以 在 下 次 分 配 时 “重用 ”而 无 湖 初 始 化 ， 那 就 可 以 捉 避 内 核 的 效 党。 

e 缓冲 区 的 组 织 和 管理 是 密切 相关 的 。 在 有 总 速 组 仓 的 情况 下 ， 这 些 缓冲 区 的 组 织 利 管理 方式 直 
接 影 响 到 高 速 缓存 中 的 命中 率 , 进而 影响 到 运行 时 的 效率 。 试 想 , 假定 我 们 运用 最 先 符合 (first 
fit) 的 方法 ， 从 个 由 存储 空间 片段 构成 的 队列 中 分 屿 组 误区。 在 这 样 的 过 程 中 ， 当 一 个 方 段 
不 能 满足 要 求 而 顺 着 指针 往 下 看 下 一 个 片段 的 数据 结构 时 ， 如 果 该 数据 结构 每 次 都 在 不 同 的 页 
面 中 ， 因 而 每 次 都 不 能 命中 ， 而 茧 从 内 存 装 入 旬 吉 速 缓存 ， 那 么 可 想 而 知 ， 其 效率 显然 加 要 打 
折扣 了 。 

e 不 适合 多 人 处理 器 共用 内 存 的 情况 。 

实际 上 , 如 何 有 效 地 管理 绥 冲 区 空间 , 很 久 以 来 就 是 一 个 热门 的 研究 课题 。 90 年 代 前 期 , 在 solaris 
2.4 操作 系统 (Unix 的 一 个 变种 ) 中 ， 采 用 了 一 种 称 为 “slab” 的 缓冲 区 分 配 和 管理 方法 (slab 的 原意 
是 大 块 的 混凝土 )， 在 相当 程度 上 克服 了 上 述 的 缺点 。 而 Linux， 也 在 其 内 核 中 采用 了 这 种 方法 ， 并 作 
了 改进 。 

从 存储 器 分 配 的 角度 讲 ，slab 与 为 各 种 数据 结构 分 别 建立 缓冲 池 相 似 ， 也 与 以 新 我 们 看 到 过 的 按 
大 小 划分 管理 区 (zone) 的 方法 相似 ， 但 是 也 有 重要 的 不 同 。 

在 slab 方法 中 ， 每 种 重要 的 数据 结构 都 有 自己 专用 的 缓冲 区 队列 ， 每 种 数据 结构 都 有 相应 的 “ 构 
造 ”(constructor) 和 “拆除 ”(destmctor) 函数 。 同 时 ， 述 借用 面向 对 象 程序 设计 技术 中 的 名 词 ， 不 天 
称 “ 结 构 ” 而 称 为 “对 象 ”(object)。 缓 冲 区 队列 中 的 各 个 对 象 在 建立 时 用 其 “构造 ”函数 进行 初始 化 ， 
所 以 一 经 分 配 立即 就 能 使 用 ， 而 在 释放 时 则 恢复 成 原状 。 例 如 ， 对 于 其 中 的 队列 头 成 分 来 说 〈 谈 者 可 
BE page 数据 结构 的 定义 ， 结 构 中 有 两 个 struct list head 成 分 )， 当 将 其 从 队列 中 摘除 时 自然 就 恢复 成 
了 原状 。 每 个 队列 中 “对 象 ” 的 个 数 是 动态 变化 的 ， 不 够 时 可 以 增添 。 网 时 ， 又 定期 地 检查 ， 将 有 
余 的 队列 加 以 精简 。 我 们 在 kswapd 的 do_try_to_free_pages( ) 中 曾经 看 到 , 调用 函数 Kmem_cache_reap( ), 
为 的 就 是 从 富余 的 队列 同 收 物理 页 面 ， 只 是 当时 我 们 没有 绚 讲 。 其 实 ， 定 期 地 检查 和 处 理 这 些 缓 神 区 
队列 ， 也 是 kswapd 的 一 项 功能 。 

此 外 ，slab 管理 方法 还 有 :个 特点 ， 每 种 对 和 象 的 缓冲 区 队列 并 非 山 各 个 对 象 直 按 构成 ， 测 是 由 一 
连 串 的 “大 瑞 ”(slab》 构 成 ， 而 每 个 人 块 中 则 包含 了 车 十 同 种 的 对 象 。 ” 般 而 言 ， 对 象 分 两 种 ， 一 种 
是 大 对 象 ， 一 种 是 小 对 每 。 所 谓 小 对 象 ， 是 指 在 一 个 页 面 中 可以 容纳 下 好 几 个 对 象 的 者 一 种 。 例 如 ， 
一 个 inode 的 大 小 约 300 多 个 宁 节 ， 央 此 一 个 页 面 中 可 以 容纳 8 个 以 上 的 inode， 所 以 inode 是 小 对 象 。 
内 核 中 使 用 的 大 多 数 数据 结构 都 是 这 样 的 小 对 象 ， 所 以 ， 我 们 先 来 看 对 小 对 象 的 组 织 和 管理 以 及 相应 
的 slab 结构 。 先 看 用 于 某 种 假想 小 对 象 的 一 个 slab 页 的 结构 示意 图 (图 2.82: 
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2.8 小 对 象 slab 结构 示 章 图 


此 处 先 对 上 列 示意 图 作 几 点 说 明 ， 详 细 情况 则 随 着 代码 的 阅读 再 逐步 深入 : 


-个 slab 可 能 由 1 个 、2 个 、4 个 、… 最 多 32 个 连续 的 物理 页 面 构成 。slab 的 具体 大 小 因 对 
象 的 大 小 而 内 ， 初 始 化 时 通过 计算 得 出 最 合适 的 大 小 。 

在 每 个 slab 的 前 端 是 该 slab 的 描述 结构 slab_t。 用 于 同 - 种 对 象 的 多 个 slab 通过 描述 结构 中 的 
队列 头 形 成 一 条 双向 链 队列 。 谷 个 slab 双向 链 队 列 在 逻辑 上 分 成 三 截 , 第 一 截 是 各 个 slab 上 所 
有 的 对 象 痢 已 分 配 使 用 的 ; 第 REKA slab 上 的 对 和 象 已 经 部 分 地 分 配 使 用 ; 最 后 一 截 是 各 个 
slab 上 的 全 部 对 象 都 处 于 空闲 状态 。 

每 个 slab 上 都 有 -个 对 和 象 区 ， 这 是 个 对 象 数据 结构 的 数组 ， 以 对 象 的 序号 为 下 标 就 可 得 到 具体 
对 象 的 起 始 地 址 。 

每 个 slab 上 还 有 个 对 象 链接 数组 ， 用 来 实现 :个 空闲 对 象 链 。 


e 同时 ,每 个 slab 的 描述 结构 中 部 有 一 个 字段 ， 表 明 该 slab 上 的 第 个 空闲 对 象 。 这 个 字段 与 对 


象 链接 数组 结合 在 -起 形成 了 … 条 空闲 对 象 链 。 

在 slab 描述 结构 中 还 有 一 个 已 经 分 生 使 用 的 对 象 的 计数 器 ， 当 将 一 个 空闲 的 对 象 分 配 使 用 时 ， 

就 将 slab 控制 结构 中 的 计数 器 加 1， 并 将 该 对 象 从 空闲 队列 中 脱 链 。 

当 释 放 一 个 对 象 时 ， 只 需要 调整 链接 数组 中 的 相应 元 素 以 及 slab 描述 结构 中 的 计数 器， 并 且 根 
据 该 slab 的 使 用 情况 向 调整 其 在 slab 队列 中 的 位 置 ( 例 如 ， 如 果 slab 上 所 有 的 对 象 都 已 分 配 
使 用 ， 就 要 将 该 slab 从 第 二 截 转移 到 第 一 截 去 )。 

每 个 slab 的 头 部 有 一 小 小 的 区 域 是 不 使 用 的 ， 称 为 “着 色 区 (coloring area)。 着 色 区 的 大 小 使 
slab 中 的 每 个 对 象 的 起 始 地 址 都 按 襄 速 缓存 中 的 “缓冲 行 ”(cache line) K- (80386 的 “级 高 
速 缓 存 中 缓存 行 大 小 为 16 个 字 节 ，Pentium 为 32 AT) 对 齐 。 每 个 slab 都 是 从 一 个 抽 面 边 
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界 开始 的 ， 所 以 本 来 就 自然 按 高 速 缓存 的 缓冲 行 对 齐 ， 向 着 色 区 的 设置 只 是 将 第 一 个 对 象 的 起 
始 地 址 往 后 推 到 另 … 个 与 缓冲 行 对 齐 的 边界 。 同一 个 对 象 的 缓冲 队 询 中 的 各 个 slab 的 着 色 区 的 
大 小 尽 可 能 地 安排 成 不 同 的 大 小 , 使 得 不 同 slab 上 同一 相对 位 置 的 对 和 象 的 起 始 地 址 在 高 速 组 存 
中 互相 错开 ， 这 样 可 以 改善 商 速 缓存 的 效率 。 

€ 每 个 slab 上 最 后 一 个 对 象 以 后 也 有 一 个 小 小 的 废料 区 是 不 用 的 ， 这 是 对 着 色 区 大 小 的 补偿 ， 其 
大 小 取决 于 着 色 区 的 大 小 以 及 slab 与 其 每 个 对 象 的 相对 大 小 ,但 该 区 域 与 者 色 区 的 总 各 对 十 同 
一 种 对 象 的 各 个 slab 是 个 常数 。 

e 每 个 对 象 的 大 小 基本 上 是 所 需 数据 结构 的 大 小 。 只 有 当 数 据 结构 的 大 小 不 与 高 速 缓 企 中 的 组 神 
行 对 齐 时 ， 才 增加 车 十 字 节 使 其 对 齐 。 所以， 个 slab 上 的 所 有 对 象 的 起 始 地 址 帮 必 然 是 按 高 
速 缓存 中 的 缓冲 行 对 齐 的 。 


下 面 就 是 slab 描述 结构 slab t 的 定义 ， 在 mmy/slab.c 中 : 


/* 
* slab t 
水 
* Manages the objs in a slab. Placed either at the beginning of mem allocated 
* for a slab, or allocated from an general cache. 
* Slabs are chained into one ordered list: fully used, partial, then fully 
* free slabs. 
*/ 
typedef struct slab s { 
struct list head list; 
unsigned long colouroff; 
void *s mem; /* including colour offset */ 
unsigned int inuse; /* num of objs active in slab */ 
kmem bufcti t free; 
) slab t; 


这 里 的 队列 头 list 用 来 将 一 块 slab 链 入 一 个 专用 缓冲 区 队列 ，coloureff 为 本 slab 上 着 色 区 的 大 小 ， 
指针 s mem 指向 对 象 区 的 起 点 ，inuse 是 已 分 配对 象 的 计数 器 。 最 后 ，free 的 值 指明 了 空闲 对 象 链 中 的 
第 一 个 对 象 ， 其 实 是 个 整数 ; 


p 
* 


关 * o X* X X X X X X * * 
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kmem bufctl t: 


Bufctl's are used for linking objs within a slab 
linked offsets. 


This implementaion relies on “struct page" for locating the cache & 
slab an object belongs to. 

This allows the bufctl structure to be small (one int), but limits 
the number of objects a slab (not a cache) can contain when ofí-slab 
bufctls are used. The limit is the size of the largest general cache 
that does not use off-slab slahs. 


第 2 章 ”存储 管理 
122 * For 32bit archs with 4 kB pages, is this 56. 


123 * This is not serious, as it is only for large objects, when it is unwise 
124 * to have too many per slab. 

125 * Note: This limit can be raised by introducing a general cache whose size 
126 * is less than 512 (PAGE_SIZE<<3), but greater than 256. 

127 */ 

128 


129 #define BUFCTL END OxffffFFFF 
130 #define SLAB LIMIT OxffffFFFE 
131 typedef unsigned int kmem bufctl t; 


在 空 用 对象 链接 数组 中 ， 链 内 每 “个 对 象 所 对 应 元 素 的 值 为 上 一 个 对 象 的 序号 ， 最 后 . -个 对 象 所 
对 应 元 素 的 值 为 BUFCTL_END。 

为 每 种 对 象 建立 的 slab 队列 都 有 个 队 头 ， 其 控制 结构 为 kmem_cache_t。 该 数据 结构 中 除 用 来 维持 
slab 队 刻 的 各 种 指针 外 ， 还 记录 了 适用 于 队列 中 每 个 slab 的 各 种 参数 ， 以 及 两 个 函数 指针 :， .个 是 对 
象 的 构筑 函数 〈《constructor)， 男 一 个 是 拆除 函数 〈dectructo)。 有 趣 的 是 ， 像 其 他 数据 结构 一 样 ， 每 种 
对 象 的 slab 队 头 也 是 在 slab 上 。 系 统 中 有 个 总 的 slab 队列 ， 其 对 象 是 各 个 其 他 对 象 的 slab 队 头 ， 其 队 
头 则 也 是 一 个 kmem_cache_t 结构 ， 称 为 cache_cache。 

这 样 ， 就 形成 了 一 种 层次 式 的 树 形 结构 : 

€ 总 根 cache cache 是 一 个 kmem_cache_t 结构 , 用 来 维持 第 一 层 slab BAS, 这 些 slab 上 的 对 象 都 

是 kmem_cache t 数据 结构 。 

€ 每 个 第 一 层 slab 上 的 每 个 对 象 , HD kmem_cache_t 数据 结构 都 是 队 头 , 用 来 维持 一 个 第 二 层 slab 

队列 。 

e 第 二 层 slab 队列 基本 上 都 是 为 某 种 对 象 ， 即 数据 结构 专用 的 。 

e 每 个 第 二 层 slab 上 都 维持 着 一 个 室 闲 对 象 队 列 。 

总 体 的 组 织 如 下 页 图 2.9 所 示 。 

从 图 2.9 中 可 以 看 出 ， 最 高 的 层次 是 slab 队列 cache_cache， 队 列 中 的 每 个 slab 载 有 若干 个 
kmem cache t 数据 结构 。 而 每 个 这 样 的 数据 结构 又 是 某 种 数据 结构 〈 例 如 inode. vm area, struct. 
mm struct, JEF IP 网 络 信 息 包 等 等 ) 缓冲 区 的 slab 队列 的 头 部 。 这 样 ， 当 要 分 配 一 个 某 种 数据 结 
构 的 缓冲 区 时 ， 就 只 站 指明 起 从 哪 一 个 队列 中 分 配 ， 而 不 需要 说 明 缓冲 区 的 大 小 ， 并 且 不 需要 初始 化 
I. 县 体 的 函数 是 : 


void *kmem cache alloc(kmem cache t *cachep, int flags); 


void kmem cache free(kmem cache t ¥*cachep, void  *objp); 
所 以 ， 当 甫 要 分 配 一 个 具有 专 几 slab 队列 的 数据 结构 时 ， 应 该 通过 kmem cache, alloc( ) 分 配 。 例 


如 ， 我 们 在 本 章 中 看 到 过 的 mm_struct 、vm_area_struct、file、dentry、inode 等 常用 的 数据 结构 ， 就 都 
有 专用 的 slab 队列 ， 而 应 通过 kmem_cache_alloc( ) 分 配 。 
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2.9 小 对 象 缓冲 区 结构 示意 图 


当 数 据 结构 比较 大 ， 因 而 不 属于 “小 对 象 ” 时 ，slab 的 结构 略 有 不 同 。 不 同 之 处 是 不 将 slab 的 控 
制 结构 放 在 它 所 代表 的 slab 上 ， 而 是 将 其 游离 出 米 ， 集 中 放 和 在 另外 的 slab |。 由 于 在 slab 的 控制 结构 
kmem_slab_t 中 有 一 个 指针 指向 相应 slab 上 的 第 一 个 对 象 ， 所 以 逻辑 上 是 一 样 的 。 上 其实， 这 就 是 将 控制 
结构 与 控制 对 象 相 分 离 的 一 般 模式 。 打 个 比方 ， 载 有 “小 对 象 ” 的 slab 就 好 像 是 随身 携带 着 的 户口 本 ， 
而 载 有 “大 对 象 ” 的 slab 就 好 像 是 将 户口 本 集中 存放 在 派 出 所 里 或 者 是 某 个 代理 机 构 里 。 此 外 ， 当 对 
象 的 大 小 恰好 是 物理 页 面 的 12、1/4 或 1/8 时 ， 将 依附 二 每 个 对 象 的 链接 指针 紧 欣 着 放任 一 起 会 造成 
slab 空间 上 的 重大 浪费 ， 所 以 在 这 些 特殊 情况 下 ， 将 链接 指针 也 从 slab 上 游 岗 出 来 集中 人 存放， 以 提高 
slab 的 空间 使 用 率 。 

不 过 ， 并 非 内 核 中 使 用 的 所 有 数据 结构 都 有 必要 拥有 专用 的 缓冲 区 队列 ，- : 些 不 太 党 用、 初始 化 
开销 也 不 大 的 数据 结构 还 是 可 以 合用 一 个 通用 的 缓冲 区 分 配 机 制 。 所 以 ，Linux 内 核 中 还 有 一 种 既 类 似 
于 物理 页 面 分 配 中 采用 的 按 大 小 分 区 ， 又 采用 slab 方式 管理 的 通用 绥 冲 地 ， 称 为 “slab_cache”。 
slab. cache 的 结构 与 cache cache 大 同 小 异 ， 只 不 过 其 顶层 不 是 一 个 队列 而 是 一 个 结构 数组 《这 是 由 于 
slab. cache 相对 来 说 比较 静态 )， 数 组 中 的 每， 个 元 素 指向 一 个 不 同 的 slab 队列 。 这 些 slab WIA 
之 处 仅 在 十 所 载 对 象 的 大 小 。 最 小 的 是 32， 然 后 依次 为 64、128、… 直至 128K EME 32 个 页面 )。 
从 通用 缓冲 池 中 分 配 和 释放 缓冲 区 的 水 数 为 : 


void ¥*kmalloc(size_t size, int flags) ; 


void kfree(const void *objp ) ; 


所 以 ， 当 需要 分 配 一 个 不 具 有 专用 slab 队列 的 数据 结构 而 又 不 必 为 之 使 用 上 整个 页 面 时 ， 就 应 该 遂 
过 kmalloc( ) 分 配 。 这 一 般 邦 是 些 细小 而 又 不 常用 的 数据 结构 ， 例 如 第 5 章 中 安装 文件 系统 时 使 用 的 
vfsmount 数据 结构 就 是 这 样 。 如 果 数 据 结 构 的 大 小 接近 于 一 个 上 贡 面 , 则 也 可 以 干 瞻 束 通过 alloc_pages() 
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为 之 分 配 一 个 页 面 。 
顺 使 提 一 下 ， 内 核 中 还 有 一 组 与 内 存 分 配 有 关 的 函数 vmalloc( ) 和 vfree( ): 


void* vmalloc(unsigned long size): 


void vfree(void* addr) ; 


F3 vmalloc( ) 从 内 核 的 虚 存 空间 (3GB Lb) 分 配 一 块 虚 存 以 及 相应 的 物理 内 存 ， 类 似 十 系统 调 
用 brk( )。 不 过 brk ) 是 由 进程 在 用 户 空 间 局 动 并 从 用户 空间 中 分 配 的 ， 而 vmalloc( ) 则 是 在 系统 空间 ， 
也 就 是 内 核 中 启动 ， 从 内 核 空 间 中 分 配 的 。 由 vmalloc( ) 分 配 的 空间 不 会 被 kswapd HIN, [179 kswapd 
只 扫描 各 个 进程 的 用 户 空 间 , 而 根本 号 看 不 到 通过 vmalloc( ) 分 配 的 页 面 表 项 。 至 十 通过 kmalloc( ) 分 配 
的 数据 结构 ， 则 kswapd 只 是 从 各 个 slab 队列 中 寻找 和 收集 空闲 不 用 的 slab, JRE RCA A ut ri, (Hi 
是 不 会 将 尚 在 使 用 中 的 slab 所 占据 的 页 面 换 出 。 由 于 vmalloc( ) 与 我 们 后 面 要 讲 的 ioremap( O JEX +, 
这 里 就 不 讲 了 。 

在 讲解 内 核 缓冲 区 的 分 配 之 前 ， 我 们 先 介绍 缓冲 区 队 刻 的 建立 。 


2.10.1 专用 缓冲 区 队列 的 建立 


本 来 ， 虐 在 区 间 结 构 vm_area_struct 的 专用 缓冲 区 队 州 是 一 个 很 好 的 实例 , 读者 部 山 经 熟悉 了 这 个 
数据 结构 的 使 用 。 但 是 ， 到 现在 为 止 ，Linux 内 核 中 多 数 专 用 缓冲 区 的 建立 都 用 NULL 作为 构造 因数 
(constructor) 的 指针 ， 也 就 是 说 并 没有 充分 利用 slab 管理 机 制 所 提供 的 好 处 《相对 来 说 ，slab 是 比较 
新 的 技术 )， 似 乎 不 够 典型 。 所 以 ， 我 们 从 内 核 的 网 络 驱动 子 系统 中 选择 了 一 个 例子 ， 这 是 在 
net/core/skbuff.c 中 定义 的 ; 


473 void | init skb init (void) 


474 { 

475 int i; 

476 

477 skbuff head cache = kmem cache_create("skbuff head cache”, 
4T8 sizeof (struct sk buff), 
479 0, 

480 SLAB HWCACHE ALIGN, 

48| skb headerinit, NULL); 

482 if (!skbuff head cache) 

483 panic ("cannot create skbuff cache”): 

484 

485 for (i-0; i<NR CPUS; i++) 

486 skb queue head init(&skb head pool[i].list); 
487} 


从 代码 中 可 以 看 到 , skb_init( ) 历 做 的 事情 实际 上 就 是 为 网 络 驱动 子 系统 建立 -- 个 sk_buff 数据 结构 

的 专用 缓冲 区 队列 ， 其 名 称 为 “skbufft_head_cache”。 读 者 可 用 命令 “catproc/slabinfo” 来 观察 这 些 队 

列 的 使 用 情况 。 牌 个 缓冲 区 ， 或 者 说 “对 象 ” 的 大 小 是 sizeof(struct sk_buff)。 调 用 参数 offset 为 0， 表 

示 对 第 一 个 缓冲 区 在 slab 中 的 位 移 并 无 特殊 紫 求 。 但 是 参 数 flags 为 SLAB_LHWCACHE_ ALIGN, 表示 

要 求 与 高 速 缓存 中 的 缓冲 行 边界 〈16 字 节 或 32 字 节 ) 对 齐 。 对 象 的 构造 函数 为 skb_headerinit( ), mi 
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destructor 则 为 NULL， 也 就 是 说 在 拆除 或 释放 一 个 slab 时 无 需 对 各 个 缓冲 区 进行 特殊 的 处 理 。 


函数 kmem_cache_create( ) 所 做 的 事情 过 于 专门 ， 过 于 冷 僻 ， 这 里 就 个 深入 到 其 代码 中 去 了， 只 是 


把 它 的 内 容 概要 介绍 如 下 。 


首先 ， 要 从 cache_cache 中 分 配 一 个 kmem_cache_t 结构 ， 作 为 sk_bu 任 数据 结构 slab 队列 的 控制 结 


构 。 数 据 结 构 类 型 kmem. cache. t 是 在 mnyslab.c PEMA: 
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185 
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188 
189 
190 
191 
192 
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194 
195 
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199 
200 
201 
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struct kmem cache s | 
/* 1) each alloc & free */ 


/* full, partial first, then free */ 


struct list head slabs; 
struct list head *firstnotfull; 
unsigned int objsize; 
unsigned int flags; /* constant flags */ 
unsigned int num; /* # of objs per slab */ 
spinlock t spinlock; 
#ifdef CONFIG SMP 
unsigned int batchcount ; 


Hendif 


/* 2) slab additions /removals */ 


/* order of pgs per slab (2°n) */ 
unsigned int gfporder; 


/* force GFP flags, e.g. GFP DMA */ 


unsigned int gfpflags; 

size t colour; /* cache colouring range */ 
unsigned int colour off; /* colour offset */ 
unsigned int colour next; /* cache colouring */ 
kmem cache t *slabp cache; 

unsigned int growing; 

unsigned int dflags; /* dynamic flags */ 


/* constructor func */ 
void (*ctor) (void *, kmem cache t *, unsigned long); 


/* de-constructor func */ 
void (*dtor) (void *, kmem cache t *, unsigned long): 


unsigned long failures; 


/* 3) cache creation/removal */ 


char name [CACHE NAMELEN] ; 
struct list head next; 


#ifdef CONFIG SMP 
/* 4) per-cpu data */ 


cpucache t *cpudata[NR CPUS]; 
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222 Hendif 

223 &if STATS 

224 unsigned long num active; 
225 unsigned long num allocations; 
226 unsigned long high mark; 
227 unsigned long grown; 

228 unsigned long reaped; 

229 unsigned long errors; 

230 #ifdef CONFIG SMP 

231 atomic t allochit; 

232 atomic t allocmiss; 

233 atomic t freehit; 

204 atomic t freemiss; 

235 Hendif 

236 #endif 

237  J* 


在 kmem_cache_s 的 基础 上 ， 在 include/linux/slab.h 中 又 定义 了 kmem cache t: 


12 typedef struct kmem cache s kmem cache 七 ; 


结构 中 的 队列 头 slabs 川 来 维持 一 个 slab 队列 ， 指 针 firstnotfull 则 指向 队列 中 第 一 个 含有 空闲 对 象 
( 即 缓冲 区 ) 的 slab, 15 A538 ISI BA SU ATS 2 段 。 当 这 个 指针 指向 队列 头 slabs 时 就 表明 队列 中 不 存在 
含有 空闲 对 象 slab。 

结构 中 还 有 个 队列 头 next， 则 是 用 来 在 cache, cache 中 建立 一 个 “专用 缓冲 区 slab 队列 的 队列 "， 也 
就 是 slab 队列 控制 结构 的 队列 。 当 slab 的 描述 结构 与 对 象 不 在 同 -… slab 上 时 ， 即 对 于 大 对 象 sab， 指 
针 slabp_cache 指 同 对 方 队列 的 控制 结构 。 

除 这 些 队列 头 和 指针 以 外 , 偿 有 一 些 重要 的 成 分 : objsize 是 原始 的 数据 结构 (对 象 ) 的 大 小 , 在 这 个 
情景 中 就 是 sizeof(struct sk buff); num 表示 每 个 slab 上 有 几 个 缓冲 |x , gfporder 则 表示 每 个 slab 的 大 小 。 
每 个 slab 都 是 由 和 2 个 页 面 构成 的 ， 而 gfporder 就 是 n. 

朋 面 讲 过 ， 在 每 个 slab 的 前 部 保 曾 了 一 小 块 区 域 空 着 不 用 ， 那 就 是 “着 色 区 ”(coloring area), H 
TERI AE 4215) — slab 队列 中 不 同 slab 上 对 和 象 区 的 起 始 地 址 互相 错开 ， 这 样 有 利于 改善 高 速 缓冲 的 效率 。 
PRA, WRTA slab 的 颜色 为 1， 则 下 个 slab 的 颜色 将 是 2， 使 下 一 个 slab 中 的 第 - -个 缓冲 区 更 往 
后 推 一 些 。 但 是 ， 不 同 “ 颜 色 ” 的 数量 是 有 限 的 ， 它 取决 于 --- 块 slab 分 割 成 震 干 缓冲 区 (HA) 以 及 
所 需 的 其 他 空间 以 后 的 剩余 ， 以 及 高 速 缓存 中 每 个 缓冲 行 (cache line) 的 大 小 。 所 以 ， 对 每 个 slab BA 
列 都 要 计算 出 它 的 颜色 数量 ， 这 个 数量 就 保存 在 colour 中 ， 而 下 一 个 slab 将 要 使 用 的 颜色 则 保存 在 
colour. next 中 。 当 colour next 35 $|f& X fti colour 时 ， 就 又 从 0 开始， 如 此 周而复始 。 着 色 区 的 大 小 可 
以 根据 (colour_offXcolour) 算得 。 

分 配 了 一 个 kmem_cache_t 结 构 以 后 ,kmem_cache_create( ) 就 进行 一 系列 的 计算 , 以 确定 最 佳 的 slab 
构成 。 包 括 : 每 个 slab 由 几 个 负面 组 成 , 划分 成 多 少 个 缓冲 区 ( 即 “ 对 和 象 ”); slab 的 控制 结构 kmem. slab t 
应 该 在 slab 外 面 集中 存放 还 是 就 放 在 位 个 slab 的 尾部 ;每 个 缓冲 区 的 链接 指针 应 该 在 slab 外 面 集中 存 
放 还 在 slab 上 与 相应 的 缓冲 |x. 紧 挨 着 放 在 起， 还 有 “颜色 ”的 数量 等 等 。 并 根据 调用 参数 和 计算 的 
结果 设置 队列 头 kmem cache t 结构 中 的 各 个 参数 ， 包 括 山 个 函数 指针 ctor 和 dtor。 
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最 后 ， 将 队 头 kmem cache. t 结构 链 入 cache_cache 的 next 队列 中 注意 ,不 是 它 的 slab 队列 中 )， 

函数 kmem. cache. create( ) 只 是 建立 了 所 需 的 专用 缓冲 区 队列 的 基础 设施 ， 所 形成 的 slab 队列 是 个 
室 队 列 。 而 具体 slab 的 创建 则 要 等 需要 分 配 缓冲 多时， 却 发 现 队 列 中 并 无 空闲 的 缓冲 区 可 供 分 生 时 ， 
冉 通过 kmem_cache_grow( ) 来 进行 。 


2.10.2 ”缓冲 区 的 分 配 与 释放 


在 建立 了 一 种 缓冲 区 的 专用 队列 以 后 ， 就 可 以 通过 kmem cache alloc( )9K2r Bo PEE P. MEB 
建立 的 skbuff_head_cache 队列 来 说 ， 文 件 net/core/skbuff.c 中 是 这 样 进行 分 配 的 : 


165 struct sk buff *alloc skb(unsigned int size, int gfp mask) 


166 { 

181 skb = skb head from pool ( ); 

182 if (skb == NULL) { 

183 skb = kmem cache alloc(skbuff head cache, gfp mask): 
184 if (skb == NULL) 

185 goto nohead; 

186 } 

215 ] 


函数 alloc_skb( J) 是 具体 设备 驱动 程序 对 kmem cache alloc( ) 的 包装 ， 在 此 基础 上 建立 起 自己 的 组 
冲 区 管理 机 制 ， 包 括 一 个 sk_buff 数据 结构 的 缓冲 池 ， 以 加 快 分 配 数据 结构 的 速度 ， 并 防止 内 具体 驱动 
程序 分 配 / 释放 缓冲 区 不 当 放 引起 问题 。 这 样 ， 就 把 具体 的 设备 驱动 程序 与 kmem_cache_alloc( ) 分 隅 
me 

要 分 配 一 个 sk buff 数据 结构 ， 先 通过 skb_head_from_pool( ) 试 试 缓冲 池 。 如 果 在 缓冲 池 中 得 不 到 ， 
那 就 要 进一步 通过 kmem_cache_alloc( ) 分 配 ， 这 就 是 我 们 所 关心 的 。 其 代码 在 mnyslab.c 中 : 


[alloc_skb( ) > kmem cache. alloc( )] 


1506 void * kmem cache alloc (kmem cache t *cachep, int flags) 


1507. | 
1508 return | kmem cache alloc(cachep, flags); 
1509 j 


[alloc skb( ) > kmem cache. alloc( ) >  kmem cache alloc( )] 


1291 static inline void * . kmem cache alloc (kmem cache t *cachep, int flags) 
1292 { 

1293 unsigned long save flags; 

1294 void* objp; 

1295 

1296 kmem cache alloc head(cachep, flags); 


1297 try again: 
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1298 
1299 


1319 
1320 
1321 
1322 
1323 
1324 
1325 


1328 
1329 
1330 
1331 
1332 
1333 
1334 
1335 
1336 


第 2 章 存储 管理 


local irq save(save flags); 
#ifdef CONFIG SMP 
#else 
ob jp = kmem_cache_alloc_one (cachep) ; 
&endif 
local irq restore(save flags); 
return objp; 


alloc new slab: 
#ifdef CONFIG SMP 


Hendif 

local irq restore (save flags); 

if (kmem cache grow(cachep, flags)) 
/* Someone may have stolen our objs. Doesn't matter, we'll 
* just come back here again. 
*/ 
goto try again; 

return NULL; 


首先 ，alloc_skb( ) 中 的 指针 skbuff_head_cache 是 个 全 局 量 ， 指 向 相应 的 slab 队列 《这 里 是 sk. buff 


结构 的 slab BAS) 的 队 头 ， 因 而 这 里 的 参数 cachep 也 指向 这 个 队列 。 
程序 中 的 kmem_cache_alloc_head( ) 是 为 调试 而 设 的 ， 在 实际 这 行 的 系统 中 是 空 函 数 。 我 们 在 这 时 
也 不 关心 多 处 理 器 SMP 结构 , 所 以 这 里 关键 性 的 操作 就 是 kmem_cache_alloc_one( ), 这 是 一 个 宏 操 作 ， 


其 定义 为 : 

1246 /* 

1247 * Returns a ptr to an obj in the given cache. 

1248 * caller must guarantee synchronization 

1249 * #define for the goto optimization 8 ) 

1250 */ 

1251 define kmem cache alloc one (cachep) \ 
1252 (1 N 

1253 slab t *slabp; \ 

1254 \ 

1255 /* Get slab alloc is to come from. */ \ 
1256 { X 

1251 struct list head* p = cachep-^firstnotfull; ^ 
1258 if (p == &cachep-^slabs) X 

1259 goto alloc new slab; X 

1260 slabp = list entry(p,slab t, list); V 

1261 } \ 

1262 kmem cache alloc one tail (cachep, slabp); \ 
1263. 1) 


Efi | kmem, cache. alloc( ) 的 代码 一 定 要 和 这 个 宏 定 义 结合 起 来 看 才能 明白 。 从 定义 由 可 以 看 到 ， 
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第 一 步 是 通过 slab 队列 头 中 的 指针 firstnotfull， 找 到 该 队列 中 第 一 个 含有 空 用 对 和 象 的 slab。 如 果 这 个 指 
针 指 向 slab 队列 的 链 头 (不 是 链 中 的 第 一 个 slab)， 那 就 表示 队列 中 已 经 没有 含有 空 闪 对 象 的 slab， 所 以 
就 转 到 ”_kmem_cache_alloc( ) 中 的 标号 alloc new. slab 处 (1324 行 )， 进 一 步 扩充 该 slab 队列 。 

如 果 找 到 了 含有 空闲 对 象 的 slab, BVA kmem_cache_alloc_one_tail( ) 分 配 个 空 亲 对 象 并 返回 其 
指针 : 


{alloc_skb( ) > kmem cache alloc( ) > ____kmem_cache_alloc( ) > kmem cache. alloc one tail( )] 


1211 static inline void * kmem cache alloc one tail (kmem cache t *cachep, 
1212 slab. t *slabp) 

1213 { 

1214 void *objp; 

1215 

1216 STATS_INC_ALLOCED (cachep) ; 

1217 STATS INC ACTIVE(cachep) ; 

1218 STATS SET IITGH (cachep) ; 

1219 

1220 /* get obj pointer */ 

1221 slabp-^inuse-*; 

1222 objp = slabp-?s mem + slabp-^free*cachep-»objsize; 

1223 slabp-^free-slab bufct](slabp) [slabp->free] ; 

1224 

1225 if (slabp->free == BUFCTL END) 

1226 /* slab now full: move to next slab for next alloc */ 
1227 cachep->firstnotfull = slabp->list. next; 


1228 #if DEBUG 


1242 Hendif 
1243 return objp; 
1244 } 


如 前 所 述 ， 数 据 结 构 slab_t 中 的 free 记录 着 下 一 次 可 以 分 配 的 空闲 对 象 的 序号 ， 而 s. mem 则 指 问 
slab 中 的 对 象 区 ， 所 以 根据 这 些 数据 和 本 专用 队列 的 对 象 大 小 ， 就 呆 以 计算 出 该 空闲 对 象 的 起 始 地 丝 ， 
‘Ria, MIRAE slab bufctl( ) 改 变 字 段 free 的 值 ， 使 狐 指 明 下 一 个 空闲 对 象 的 序号 。 


154 #define slab bufctl(slabp) \ 
155 ((kmem bufctl t *) (((slab_t*) slabp) +1)) 


这 个 宏 操作 返回 一 个 kmem_bufctl_t 数组 的 地 址 ， 这 个 数组 斌 在 slab 中 数据 结构 slab_t 的 上 方 ， 紧 
挨 着 数据 结构 slab_t。 该 数组 以 当前 对 象 的 序号 为 下 标 , ZA E EI] FELD] e HB S TART S o 
改变 了 slab t 中 free 字段 的 值 ， 就 隐 含 着 当前 对 象 已 被 分 配 。 

如 果 达 到 了 slab 的 末尾 BUFCTL END, 8 EU88*1Z slab 队 亿 的 指针 firstnotfull, (ETRE BAS 
的 下 一 个 slab。 

不 过 ， 我 们 假定 slab 队列 中 己 经 不 存在 含有 空 闪 对象 的 slab， 所 以 要 和 转 到 前 面 代 码 中 的 标号 
alloc new. slab 处 ， 通 过 kmem_cache_grow( ) 来 分 配 一 块 新 的 slab， 使 缓冲 区 的 队列 “生长 ”起 米 。 函 
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数 kmem_cache_grow( ) 的 代码 也 在 mm/slab.c F: 


[alloc skb( ) > kmem cache. alloc( ) > __ kmem cache. alloc( ) > kmem cache. grow( )] 


1066 
1067 
1068 
1069 
1070 
1071 
1072 
1073 
1074 
1075 
1076 
1077 
1078 
1079 
1080 
1081 
1082 
1083 
1084 
1085 
1086 
1087 
1088 
1089 
1090 
1091 
1092 
1093 
1094 
1095 
1096 
1097 
1098 
1099 
1100 
1101 
1102 
1103 
1104 
1105 
1106 
1107 
1108 
1109 


/* 
* Grow (by 1) the number of slabs within a cache. This is called by 
* kmem cache alloc( ) when there are no active objs left in a cache. 


static int kmem cache grow (kmem cache t * cachep, int flags) 


{ 


slab t *slabp; 

struct page *page; 

void *ob jp; 

size t offset; 

unsigned int i, local fiags; 
unsigned long ctor flags; 
unsigned long save flags; 


/* Be lazy and only check for valid flags here, 
* keeping it out of the critical path in kmem cache alloc( ). 
*/ 
if (flags & "(SLAB DMA|SLAB LEVEL MASK|SLAR NO GROW)) 
BUG( ) ; 
if (flags & SLAB NO GROW) 
return 0; 


* 


The test for missing atomic flag is performed here, rather than 
the more obvious place, simply to reduce the critical path length 
in kmem cache alloc( ). If a calier is seriously mis-behaving they 
* will eventually be caught here (where it matters). 

*/ 

if (in interrupt( ) && (flags & SLAB LEVEL MASK) != SLAB ATOMIC) 

BUG( ); 


* * 


ctor flags = SLAB CTOR CONSTRUCTOR; 
local flags - (flags & SLAB LEVEL MASK); 
if (local flags == SLAB ATOMIC) 

/* 

* Not allowed to sleep. Need to tell a constructor about 

* this - it might need to know... 

*/ 

ctor flags |= SLAB CTOR ATOMIC; 


/* About to mess with non-constant members - lock. */ 
spin lock irqsave(&cachep-^spinlock, save flags); 


/* Get colour for the slab, and cal the next value. */ 
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1110 offset = cachep-*colour_next; 

lIli cachep-?colour next++， 

1112 if (cachep->colour_next >= cachep->colour) 

1113 cachep-?colour next = 0; 

1114 offset *- cachep->colour off; 

1115 cachep->dflags |= DFLGS GROWN; 

1116 

1117 cachep-—>growingt+; 

1118 spin unlock irqrestore(&cachep-?spinlock, save flags); 
1119 

1120 /* À series of memory allocations for a new slab. 

1121 * Neither the cache-chain semaphore, or cache-lock, are 
1122 * held, but the incrementing c growing prevents this 
1123 * cache from being reaped or shrunk. 

1124 * Note: The cache could be selected in for reaping in 
1125 * kmem cache reap( ), but when the final test is made the 
1126 * growing value will be seen. 

1127 */ 

1128 

1129 /* Get mem for the objs. */ 

1130 if (!(objp = kmem getpages(cachep, flags))) 

1131 goto failed; 

1132 

1133 /* Get slab management. */ 

1134 if (!(slabp = kmem cache slabmgmt(cachep, objp, offset, local. flags))) 
1135 goto oppsl; 

1136 

1137 /* Nasty!!!!!! 1 hope this is OK. */ 

1138 i = 1 «< cachep-^gfporder; 

1139 page = virt to page(objp); 

1140 do { 

1141 SET PAGE CACHE(page, cachep) ; 

1142 SET PAGE SLAB(page, slabp); 

1143 PageSetS lab (page); 

1144 paget++; 

1145 } while (~i); 

1146 

1147 kmem_cache_init_objs(cachep, slabp, ctor flags); 

1148 

1149 spin lock irgsave(&cachep-^spinlock, save flags); 

1150 cachep-^growing--; 

1151 

1152 /* Make slab active. */ 

1153 list add tail(&slabp-^list, &cachep-^slabs); 

1154 if (cachep->firstnotfull == &cachep-^slabs) 

1155 cachep-^firstnotfull = &slabp list; 

1156 STATS INC GROWN (cachep) ; 

1157 cachep->failures = 0: 
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1158 

1159 spin unlock irqrestore(&cachep-^spinlock, save flags); 
1160 return ]; 

1161 oppsl: 

1162 kmem freepages(cachep, objp); 

1163 failed: 

1164 spin lock irqsave(&cachep-^spinlock, save flags); 

1165 cachep-^growing--; 

1166 spin unlock irqrestore(&cachep-^spinlock, save flags); 
1167 return 0; 

1168 j 


函数 kmem cache grow( ) 根 据 队列 头 中 的 参数 gfporder 分 配 若 十 连续 的 物理 内 存 页 面 ， 并 将 这 些 
页 面 构造 成 sab， 链 入 给 定 的 slab 队列 。 对 参数 进行 了 一 些 检 查 以 后 ， 就 计算 出 下 一 块 slab 应 有 的 着 
色 区 大 小 。 然 后 ， 通 过 kmem_getpages( ) 分 配 用 于 其 体 对 象 缓 冲 区 的 页 面 ， 这 个 函数 最 终 调用 
alloc_pages( ) 分 本 空 用 页 面 。 分 配 了 用 于 对 象 本 身 的 内 存 页 面 后 ， 还 要 通过 kmem cache slabmgmt( ) 
建立 起 slab 的 管理 信息 。 其 代码 在 mnyslab.c 中 : 


[alloc skb( ) > kmem cache alloc( ) ».  kmem cache. alloc( ) > kmem_cache_grow( ) > 
kmem cache slabmgmt( )] 


996 /* Get the memory for a slab management obj. */ 
997 static inline slab t * kmem cache slabmgmt (kmem cache t *cachep, 


998 void *objp, int colour off, int local flags) 
999 { 

1000 slab t *slabp; 

1001 

1002 if (OFF SLAB(cachep)) { 

1003 /* Slab management obj is off-slab. */ 

1004 slabp = kmem cache alloc(cachep-^slabp cache, local flags); 
1005 if (!slabp) 

1006 return NULL; 

1007 } else { 

1008 /* FIXME: change to 

1009 slabp = objp 

1010 * if you enable OPTIMIZE 

1011 */ 

1012 slabp = objp*colour off; 

1013 colour off t= LI CACHE ALIGN(cachep-?num * 

1014 sizeof(kmem bufctl t) + sizeof(slab t)); 
1015 } 

1016 slabp->inuse = 0; 

1017 slabp->colouroff = colour off; 

1018 slabp-^5s mem = objptcolour off; 

1019 

1020 return slabp; 

1021  ] 


. 145. 


Linux 内 核 源 代码 情景 分 析 〈 上 册 ) 


如 前 所 述 ， 小 对 象 的 slab 控制 结构 slab t 与 对 象 本 身 共 存 于 同一 slab 上 ， 而 大 对 象 的 控制 结构 则 
游离 于 slab 之 外 。 但 是 ， 大 对 象 的 控制 结构 也 是 slab t， 存 在 于 为 这 种 数据 结构 专 设 的 slab 上 ， 也 有 
其 专用 的 slab 队列。 所以， 如 果 是 大 对 象 就 通过 kmem_cache_alloc() 分 配 -- 个 slab t， 否 则 就 用 小 对 和 象 
slab 低 端 的 部 分 空间 用 作 其 控制 结构 ,不 过 在 此 之 前 要 字 出 一 小 块 着 色 区 。 注意 这 里 1012 行 和 1017 
行 所 引用 的 colour. off 不 是 同一 个 数值 ， 这 个 变量 的 值 已 在 1013 行 作 了 调整 ， 在 原来 的 数值 上 增加 了 
对 象 链接 数组 的 人 小 以 及 控制 结构 slab t 的 大 小 。 所 以，slabp->s_mem 总 是 指向 slab 上 对 象 区 的 起 点 。 

对 分 配 用 于 slab 的 每 个 页 而 的 pagee 数据 结构 ， 要 通过 宏 操 作 SET_PAGE_CACHE 和 
SET_PAGE_SLAB， 设 置 其 链接 指针 prev 和 next， 使 儿 们 分 别 指向 所 属 的 slab 和 slab 队列 。 同 时 ， 还 
要 把 page 结构 中 的 PG_slab 标志 位 设 成 1， 以 表明 该 页 面 的 用 途 。 

最 后 ， 通 过 kmem_cache_init_objs( ) 进 行 slab 的 初始 化 : 


[alloc_skb( ) > kmem cache alloc( ) > . .. kmem cache alloc( ) > kmem cache, grow( ) > 
kmem, cache init, objs( )] 


1023 static inline void kmem cache init objs (kmem cache. t * cachep, 


1024 slab t * slabp, unsigned long ctor flags) 
1025 { 

1026 int i; 

1027 

1028 for (i = 0; i < cachep->num: i++) { 

1029 vold* objp = slabp-^s mem*cachep-?objsize*i; 


1030 #if DEBUG 


1037 Hendif 


1038 

1039 /* 

1040 * Constructors are not allowed to allocate memory from 
1041 * the same cache which they are a constructor for. 
1042 * Otherwise, deadlock. They must also be threaded. 
1043 */ 

1044 if (cachep->ctor) 

1045 cachep->ctor(objp, cachep, ctor flags); 


1046 #if DEBUG 


1059 #endif 


1060 slab bufctl(slabp)[i] = i+l; 

1061 } 

1062 slab bufctl(slabp)[i-1] = BUFCTL END; 
1063 slabp-^free = 0; 

1064  ) 


XX Eg. [f] 49] 28 4o RU. TO AAT SOR ER A. sk buff 数据 结构 ， 这 个 函数 就 是 
skb headerinit( )。 此 外 ， 代 码 中 的 1060 行 是 对 链接 数组 中 各 个 元 素 的 初始 化 。 

缓冲 区 队列 “成 长 ”了 : 些 以 后 ， 束 一 定 有 空闲 缓冲 区 可 供 分 配 了 。 所 以 转 同 标号 try again 处 再 
iX—38 CL kmem_cache_alloc( ) 中 的 1334 行 )。 
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这 样 ， 束 构成 了 一 个 多 层次 的 缓冲 区 分 配 机 制 。 位 于 最 岛 层 的 是 缓冲 区 的 分 配 ， 在 我 们 这 个 情景 
中 就 是 alloc_skb( )， 具 体 则 是 先 通过 skb_head_from_pool( )， 从 缓冲 池 ， 即 已 经 分 配 的 slab 块 中 分 配 。 
如 果 失 败 的 话 ， 就 往 下 跑 一 层 从 slab 队列 中 通过 kmem_cache_alloc( ) 分 配 。 要 是 slab 队列 中 已 经 没有 
载 有 空闲 缓冲 区 的 slab， 那 就 再 往 下 跑 一 层 ， 通 过 kmem cache grow( )， 分 配 若干 页 面 而 构筑 出 个 
slab 块 。 

那么 ， 缓 冲 区 队列 是 否 单调 地 成 长 而 不 缩小 呢 ? 我 们 在 以 前 提 到 过 ，kswapd 定时 地 调用 
kmem_cache_reap( ) 来 “收割 ”。 也 就 是 说 ， 依 次 检查 若干 专用 绥 冲 区 slab 队列 ， 看 看 是 否 有 完全 空闲 
的 slab 存在 。 有 的 话 就 将 这 些 slab 占用 的 内 存 负 面 释 放 。 





1554 void kmem cache free (kmem cache t *cachep, void *objp) 
1555  ( 

1556 unsigned long flags; 

1557 #if DEBUG 


1561 #endif 


1562 

1563 local irq save(flags); 

1564 . kmem cache free(cachep, objp); 
1565 local irq restore (flags); 

1566  ] 


显然 ， 拘 作 的 主体 症 _kmem_cache_free( )， 这 里 只 是 在 操作 期 间 把 中 断 暂 时 关闭 。 


[kmem cache free( ) > _. kmem cache free( )] 


1466 /* 

1467 * . kmem cache free 

1468 * called with disabled ints 

1469 */ 

1470 static inline void kmem cache free (kmem cache t *cachep, void* objp) 
1471 { 


1472 #ifdef CONFIG SMP 


1493 #else 

1494 kmem_cache_free_one(cachep, ob jp) ; 
1495 #endif 

1496 } 


我 们 在 这 里 不 关心 多 处 埋 器 SMP 结构 ， 而 函数 kmem_cache_free_one( ) 的 代码 也 在 同一 文件 中 ， 
[kmem_cache_free( ) > | kmem cache free( ) > kmem cache free one( )] 


1367 static inline void kmem cache free one (kmem cache t *cachep, void *ob jp) 
1368 — { 
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1369 
1370 
1371 
1372 
1373 
1374 
1375 
1376 
1377 
1378 
1379 
1380 


1402 
1403 
1404 
1405 
1406 
1407 
1408 
1409 
1410 
1411 
1412 
1413 
1414 
1415 
1416 
1417 
1418 
1419 
1420 
1421 
1422 
1423 
1424 
1425 
1426 
1427 
1428 
1429 
1430 
1431 
1432 
1433 
1434 
1435 
1436 
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slab t* slabp; 


CHECK PAGE(virt to page(objp)); 
/* reduces memory footprint 
* 
if (OPTIMIZE (cachep) ) 
slabp = (void*) ((unsigned long) objp& ( (PAGE SIZE-1))) ; 
else 
x/ 
slabp = GET PAGE SLAB(virt to page(objp)); 


&if DEBUG 
#endif 
| 


unsigned int objnr = (objp-slabp-5s mem) /cachep—>objsize; 


slab bufctl(slabp)[objnr] = slabp->free; 
siabp->free = objnr; 

} 

STATS DEC ACTIVE (cachep) ; 


/* fixup slab chain */ 

if (slabp-^inuse-- == cachep->num) 
goto moveslab partial; 

if (Islabp- inuse) 
goto moveslab free; 

return; 


moveslab, partial: 
/* was full. 
* Even if the page is now empty, we can set c firstnotfull to 
* slabp: there are no partial slabs in this case 
*/ 
{ 


struct list head *t = cachep->firstnotfull; 


cachep->firstnotfull = &slabp->list; 
if (slabp->list. next == t) 
return; 

list del (@slabp~>list) ; 
list add tail(&slabp-^list, t); 
return; 

) 

moveslab free: 

/* 

* was partial, now empty. 

* c firstnotfull might point to slabp 
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1437 * FIXME: optimize 

1438 */ 

1439 { 

1440 struct list head *t = cachep— firstnotfull-^prev; 
1441 

1442 list del(&slabp-^list); 

1443 list add tail(&slabp-^list, &cachep->slabs) ; 
1444 if (cachep-^firstnotfull == &slabp->list) 
1445 cachep->firstnotfull = t-^next; 

1446 return; 

1447 } 

1448 ] 


代码 中 的 CHECK. PAGE 只 用 于 程序 调试 ， 在 实际 运行 的 系统 中 为 空 语 句 。 根 据 符 释放 对 象 的 地 
址 可 以 算出 其 所 在 的 页 面 。 进 一 步 ， 如 前 所 述 ( 见 kmem cache grow( ) 中 的 1142 fT), vtri page 结构 
中 链 头 list 内 ， 原 用 于 队列 链接 的 指针 prev， 指 向 页 面 所 属 的 slab, 所 以 通过 宏 操 作 GET PAGE SLAB 
就 可 以 得 到 这 个 slab 的 指针 。 找 到 了 对 象 所 在 的 Slab, 就 可 以 通过 其 链接 数组 释放 给 定 对 象 CL 1404~ 
1407 行 )。 同 时 ， 还 要 递减 所 属 slab 队列 控制 结构 中 非 空闲 对 象 的 计数 。 递 减 以 后 有 三 种 可 能 : 
€ JE slab 上 没有 空闲 对 象 ， 侧 现在 有 了 ， 所 以 要 转 到 moveslab_partial 处 ， 把 slab MBA SIP Joi 
来 的 位 置 移 到 队列 的 第 二 截 ， 即 由 指针 firstnotfull 所 指 的 地 方 。 
e JAX slab 上 就 有 空 亲 对象， 而 现在 所 有 对 象 都 空闲 了 ， 所 以 要 转 到 moveslab free 处 ， 把 slab 
从 队列 中 原来 的 位 置 移 到 队列 的 第 三 截 ， 即 队列 的 末尾 。 
@ 原来 slab 上 就 有 空闲 对 象 ， 现 在 只 不 过 是 多 了 一 个 ， 但 也 并 没有 企 部 空闲 ， 所 以 不 需 归 任何 
改动 。 
可 见 ， 分 配 和 释放 专用 缓冲 区 的 开销 者 是 很 小 的 。 这 里 还 要 指出 ， 缓 冲 区 的 释放 并 不 导致 slab 的 
EUR, "P slab 的 释放 是 由 kswapd 等 内 核 线程 周期 地 调用 kmem_cache_reap( ) 完 成 的 。 
看 完了 专用 缓冲 区 的 分 配 和 释放 ， 再 看 看 通用 绥 冲 区 的 分 配 。 前 血 讲 过 ， 除 各 种 专用 的 组 冲 区 队 
Sab, ARRIBA :个 通用 的 缓冲 池 cache_sizes， 里 而 根据 缓冲 区 的 大 小 而 分 成 若干 队 州 。 用 丁 通 用 
缓冲 区 分 配 的 秃 数 kmalloc( ) 是 在 mm/slab.c 中 定义 的 : 


1511 f 

1512 * kmalloc - allocate memory 

1513 * (size: how many bytes of memory are required. 

1514 * Oflags: the type of memory to allocate. 

1515 * 

1516 * kmalloc is the normal method of allocating memory 

1517 * in the kernel. The @flags argument may be one of: 

1518 * 

1519 * %GFP BUFFER - XXX 

1520 * 

1521 * WGFP ATOMIC - allocation will not sleep. Use inside interrupt handlers. 
1522 * 

1523 * WGFP USER - allocate memory on behalf of user. May sleep. 
1524 * 
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1525 * WGFP KERNEL - allocate normal kernel ram. May sleep. 


1526 * 

1527 * *GFP NFS - has a slightly lower probability of sleeping than QGFP KERNEL. 
1528 * Don't use unless you’ re in the NFS code. 

1529 * 

1530 * WGFP KSWAPD - Don't use unless you're modifying kswapd. 
1531 */ 

1532 void * kmalloc (size t size, int flags) 

1533 { 

1534 cache sizes t *csizep = cache sizes; 

1535 

1536 for (; csizep-^cs size; csizept4) { 

1537 if (size > csizep-?cs size) 

1538 continue; 

1539 return . kmem cache alloc(flags & GFP DMA ? 

1540 csizep-2cs dmacachep : csizep-?cs cachep, flags): 
1541 } 

1542 BUG( ); // too big size 

1543 return NULL; 

1544 } 


这 里 通过 一 个 for 循环 ， 在 cache sizes 结构 数组 中 由 小 到 大 扫描 ， 找 到 第 一 个 能 满足 缓冲 区 大 小 
要 求 的 队列 ;然后 就 调用 函数 __kmem_cache_alloc( ) 从 该 队列 中 分 配 -个 缓冲 区 ,省 kmem_cache_alloc( ) 
的 作 几 我 们 在 前 面 已 经 简要 地 介绍 过 了 。 


最 后 ， 我 们 来 看 看 空闲 slab 的 “收割 ”"”， 即 对 构成 空 闪 slab 的 页 面 的 回收 。 以 前 我 们 看 到 过 ， 内 核 
线程 kswapd 在 周期 性 的 运行 中 会 调用 kmem_cache_reap( ) 回 收 这 些 页 面 。 这 个 函数 的 代 但 在 mmy/slab.c 
IH, 


1701 /站 水 

1702 * kmem cache reap - Reclaim memory from caches. 
1703 * @gfp_mask: the type of memory required. 
1704 * 

1705 * Called from try to free page( ). 

1706 */ 

1707 void kmem cache reap(int gfp mask) 

1708 l 

1709 slab t *slabp; 

1710 kmem cache t *searchp; 

1711 kmem cache t *best_cachep: 

1712 unsigned int best pages; 

1713 unsigned int best len; 

1714 unsigned int scan; 

1715 

1716 if (gfp mask & GFP WAIT) 

1717 down(&cache chain sem); 
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1718 
1719 
1720 
1721 
1722 
1723 
1724 
1725 
1726 
1727 
1728 
1729 
1730 
1731 
1732 
1733 
1734 
1735 
1736 
1737 
1738 
1739 
1740 
1741 
1742 


1750 
1751 
1752 
1753 
1754 
1755 
1756 
1757 
1758 
1759 
1760 
1761 
1762 
1763 
1764 
1765 
1766 
1767 
1768 
1769 
1770 
1771 


else 


scan 
best 
best 
best 
sear 
do { 


Hifdef C 


#endif 
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if (down trylock(&cache chain sem)) 
return; 


- REAP SCANLEN; 
len = 
pages - 0; 

_cachep = NULL; 
chp = clock searchp; 


| & | 


unsigned int pages; 
struct list head* p; 
unsigned int full free; 


/* It's safe to test this without holding the cache-lock. 


if (searchp->flags & SLAB NO REAP) 
goto next; 

spin_lock_irg(&searchp->spinlock) ; 

if (searchp—>growing) 
goto next_unlock; 

if (searchp-^dflags & DFLGS GROWN) | 
searchp-^dflags &= ^DFLGS GROWN; 
goto next unlock; 

} 

ONFIG SMP 


full free = 0; 

p = searchp-?slabs. prev; 

while (p != &searchp->slabs) | 
slabp - list entry(p, slab t, list); 
if (slabp-^inuse) 


break; 
full free++; 
p = p-»prev; 


} 


/* 
* Try to avoid slabs with constructors and/or 
* more than one page per slab (as it can be difficult 
* to get high orders from gfp( )). 
*/ 
pages = full free * (1<<searchp->gfporder) ; 
if (searchp->ctor) 
pages = (pages*4+1)/5; 
if (searchp->gfporder) 
pages = (pages*4+1)/5; 


*/ 
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if (pages > best pages) { 
best_cachep = searchp; 
best len = full frec; 
best pages = pages; 
if (full free >= REAP PERFECT) { 
clock searchp = list entry (searchp—>next. next, 
kmem cache t, next); 
goto perfect; 


j 
next unlock: 
spin unlock irq(&searchp-^spinlock); 
next: 
searchp = list_entry(searchp->next. next, kmem cache t, next) ; 
) while (—scan && searchp != clock searchp); 


clock searchp = searchp; 


if (!best cachep) 
/* couldn t find anything to reap */ 
goto out; 


spin lock irq(&best cachep-^spinlock); 
perfect: 
/* free only 80* of the free slabs */ 
best len = (best len*4 + 1)/5; 
for (scan = 0; scan < best len: scant?) | 
struct list head *p; 


if (best cachep-^growing) 
break; 
p = best cachep-?slabs. prev; 
if (p == &best cachep->slabs) 
break; 
slabp - list entry(p, slab t,list); 
if (slabp—>inuse) 
break; 
list del (&slabp-^list); 
if (best cachep- firstnotfull == &slabp->list) 
best cachep-^firstnotfull = &best cachep->slabs; 
STATS INC REAPED(best cachep); 


/* Safe to drop the lock. The slab is no longer linked to the 
* cache. 

*/ 

spin unlock irq(&best cachep->spinlock) ; 

kmem slab destroy (best cachep, slabp); 

spin lock irq(&best cachep-^spinlock); 
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1820 } 

1821 spin unlock irq(&best cachep »5spinlock); 
1822 out: 

1823 up(&cache chain sem); 

1824 return; 

1825  ] 


这 个 函数 扫描 slab 队列 的 队列 cache_cache， 从 中 发 现 可 供 “ 收 割 ” IN slab 队列 。 不 过 ， 并 不 是 每 
次 者 扫描 整个 cache_cache， 而 只 是 扫描 其 中 的 一 部 分 slab 队列 ， 所 以 需 此 有 个 全 局 量 来 记录 下 一 次 扫 
描 的 起 点 ， 这 就 是 clock_searchp: 


360 /* Place maintainer for reaping. */ 
361 static kmem cache t *clock searchp = &cache cache; 


找到 了 可 以 “收割 ”的 slab 队列 ， 也 不 是 把 它 所 有 空 闪 的 slab 孝 全 部 回收 ， 向 是 回收 其 中 的 大 约 
80%。 对 于 要 同 收 的 slab， 调 用 kmem_slab_destroy( ) 释 放 其 各 个 页 面 ， 我 们 把 这 个 咀 数 留 给 读者 白 忆 
阅读 。 


[kmem, cache, reap( ) > kmem_slab_destroy( )] 


540 /* Destroy all the objs in a slab, and release the mem back to the system. 


541 * Before calling the slab must have been unlinked from the cache. 
542 * The cache-lock is not held/needed. 
543 */ 


544 static void kmem slab destroy (kmem cache t *cachep, slab t *slabp) 
545 { 


546 if (cachep->dtor 

547 #if DEBUG 

548 || cachep->flags & (SLAB POISON | SLAB RED ZONE) 
549 fendif 

550 ) d 

59] int i; 

552 for (i = 0; i < cachep->num; i++) { 

553 void* objp = slabp->s_mem+cachep-—>ob jsize*i ; 


554 #if DEBUG 


563 #endif 
564 if (cachep->dtor) 
565 (cachep—>dtor) (objp, cachep, 0); 


066 #if DEBUG 


573 #endif 

574 } 

575 } 

576 

577 kmem freepages(cachep, slabp—>s_mem-slabp->colouroff) ; 
578 if (OFF SLAB (cachep)) 
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579 kmem cache free(cachep-^slabp cache, slabp); 
580 | 


2.11 外 部 设备 存储 空间 的 地 址 映射 


任何 系统 都 免不了 要 有 和 输入/ 输出， 所 以 对 外 部 设备 的 访问 是 CPU 设计 中 的 一 个 重 归 亲 题 。 一 般 
来 次， 对 外 部 设备 的 访问 有 两 种 不 同 的 形式 ， 一 种 叫 内 存 映 射 式 (memory mapped)， 男 一 种 叫 LO BR 
射 式 (IO mapped)。 人 在 采用 内 存 映射 方式 的 CPU 中 ， 外 部 设备 的 存储 单元 ， 如 控制 寄存 器 、 状 态 寄 存 
ary APRA EAS Se, AEA AEE 部 分 出 现在 系统 中 的 。CPU 可 以 像 访问 一 个 内 存单 元 一 样 的 访 
问 外 部 设备 的 存储 单元 ， 所 以 不 甫 要 专门 设立 用 于 外 设 VO 的 指令 。 从 前 的 PDP-11、 后 来 的 M68K, 
Power PC 等 CPU 都 采用 这 种 方式 。 而 在 采用 IO 映射 方式 的 系统 中 则 不 同 ， 外 部 设备 的 存储 单元 与 内 
存 分 属 两 个 不 同 的 体系 。 访 问 内 存 的 指令 不 能 用 来 访问 外 部 设备 的 存储 单元 ， 所 以 在 X86 CPU 中 设立 
了 专门 的 IN fI OUT 指令 ， 但 是 用 于 VO 指令 的 “地 址 空间 ”相对 来 说 是 很 小 的 。 事 实 上 ， 现 在 X86 
的 IO 地 址 空间 已 经 非常 拥挤 。 

但 是 ， 随 兰 计 算 机 技术 的 发 展 ， 人 们 发 坝 单 纯 的 LO 映射 方式 是 不 能 满足 要 求 的 。 此 种 方式 只 适 
合 于 早期 的 计算 机 技术 ， 那 时 候 一 个 外 设 通常 都 只 有 几 个 寄存 器 ， 通 过 这 几 个 寄存 器 就 可 以 完成 对 外 
没 的 所 有 操作 了 。 而 现在 的 情况 却 大 不 一 样 。 例 如 ， 在 PC ALENT RARE, AA OMB 的 存 
储 器 ， 甚 至 还 可 能 带 有 一块 ROM， 里 面 装 有 可 执行 代码 。 自 从 PCI 总 线 出 现 以 后 ， 这 个 问题 就 更 突出 
T. ITU, AE CPU 的 设计 采用 UO 映射 或 是 存储 器 映射 ， 都 必须 要 有 将 外 设 卡 上 的 人 存储 器 映射 到 内 
存 空间 ， 实 际 上 是 虚 存 空间 的 手段 。 在 Linux ARP, PERM eet AX ioremap( ) 来 建立 的 。 

对 十 内 存 页 面 的 管理 ， 通 常 我 们 都 是 先 在 虚 存 空间 分 配 … 个 虚 存 区 间 ， 然 后 为 此 区 间 分 配 相 应 的 
物理 内 存 页 面 并 建立 起 映射 。 而 且 这 样 的 映射 也 并 不 是 一 次 就 建立 完毕 ， 可 以 在 访问 这 些 虚 存 页 面 引 
起 页 面 异 常 时 遂 步 地 建立 。 但 是 ，ioremap( ) 则 不 同 ， 首 先 ， 我 们 先 有 一 个 物理 存储 区 间 ， 其 地 址 就 是 
外 设 卡 上 的 存储 器 出 现在 总 线 上 的 地 址 。 这 地 址 未 必 就 是 这 些 存储 单元 在 外 设 卡 上 局 部 的 物理 地 址 ， 
而 是 在 总 线 上 出 CPU 所 “看 到 ”的 地 址 ， 这 中 疗 很 可 能 已 经 经 历 了 一 次 地 址 映射 ， 但 这 种 映射 对 于 
CPU 来 说 起 透明 的 。 所 以 有 时 把 这 种 地 址 称 为 “总 线 地 址 ”。 举 个 例 来 说 ， 如 果 有 - 块 “ 智 能 图 形 卡 ” 
卡 上 有 个 微 处 理 器 。 对 于 卡 上 的 微 处 理 器 来 说 ， 卡 上 的 存储 器 是 从 地 址 0 开始 的 ， 这 就 是 卡 上 局 部 的 
物理 地 址 。 但 是 将 这 块 图 形 卡 插 到 PC 的 - -个 PCI Beets LIN, m PC 的 CPU 所 看 到 的 这 片 物理 存 
储 区 间 的 地 址 可 能 是 从 0x0000 f000 0000 0000 开始 的 ， 这 中 间 已 经 有 了 一 次 映射 。 可是， 从 系统 CPC) 
的 CPU 的 角度 来 说 ， 它 只 知道 这 片 物理 存储 区 间 是 从 Ox 0000 f000 0000 0000 开始 的 ， 这 就 是 该 区 间 
的 物理 地 址 ， 或 者 说 “总 线 地 址 ”。 TD Linux 系统 中 ，CPU 不 能 按 物理 地 址 来 访问 存储 空间 ， 而 必须 使 
用 虚拟 地 址 ， 所 以 必需 “ 反 向 ”地 从 物理 地 址 出 发 找到 一 片 虚 存 空间 并 建立 起 映射 。 其 次 ， 这 样 的 需 
求 具 发 生 于 对 外 部 设备 的 操作 ， 而 这 是 内 核 的 事 ， 所 以 相应 的 虚 存 区 间 是 在 系统 空间 (3GB 以 上 )。 在 
以 前 的 Linux AKA AH, 3X BAUER A vremap( )， 后 来 改 成 了 ioremap( )， 也 突出 地 反映 了 这 一 点 。 
还 有 ， 这 样 的 页 面 当然 不 服从 动态 的 物理 内 存 页 面 分配， 也 不 服从 kswapd 的 换 出 。 

先 看 ioremap( )， 这 是 一 个 inline 函数 ， 定义 于 include\asm-i386\io.h: 


140 extern inline void * ioremap (unsigned long offset, unsigned long size) 
141 { 
142 return __ioremap(offset, size, 0); 


- 154 . 


第 2 章 存储 管理 





143 


} 


实际 的 操作 由 __ioremap( ) 完 成 ， 是 在 arch/i386/mm/ioremap.c 中 定义 的 : 


[ioremap( ) >__ ioremap( )] 


92 

93 

94 

95 

96 

97 

98 

99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 


/* 


* Remap an arbitrary physical address space into the kernel virtual 
* address space. Needed when the kernel wants to access high addresses 


* 


* 
x 
* 
* 


*/ 


directly. 

NOTE! We need to allow non-page-aligned mappings too: we will obviously 
have to convert them into an offset in a page-aligned mapping, but the 
caller shouldn't need to know that small detail. 


void *__ ioremap (unsigned long phys addr, unsigned long size, unsigned long flags) 


void * addr; 
struct vm struct * area; 
unsigned long offset, last addr; 


/* Don’ t allow wraparound or zero size */ 

last addr = phys addr + size - 1; 

if (!size j| last addr < phys addr) 
return NULL; 


/* 
* Don't remap the low PCI/ISA area, it’s always mapped.. 
*/ 
if (phys addr >= OxA0000 && last addr < 0x100000) 
return phys to virt(phys addr) ; 


/* 


* Don t allow anybody to remap normal RAM that we're using.. 


*/ 

if (phys addr € virt to phys(high memory)) { 
char *t addr, *t end; 
struct page *page; 


t addr = . va(phys addr); 
t end = t addr + (size - 1); 


for(page = virt to page(t addr); page <= virt to page(i end); page**) 


if (!PageReserved (page) ) 
return NULL; 


/* 
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134 * Mappings have to be page-aligned 

135 */ 

136 offset = phys addr & "PAGE MASK; 

137 phys, addr &- PAGE MASK; 

138 size - PAGE ALIGN(last addr) - phys addr; 
139 

140 /* 

141 * Ok, go for it.. 

142 */ 

143 area = get vm area(size, VM IOREMAP).; 

144 if (larea) 

145 return NULL; 

146 addr = area-^addr; 

147 if (remap area pages(VMALLOC VMADDR(addr), phys addr, size, flags)) { 
148 vfree (addr) ; 

149 return NULL; 

150 } 

151 return (void *) (offset + (char *) addr) ; 
152  ] 


首先 是 一 些 例 行 检查 ， 常 常 称 为 “sanity check”， 或 者 说 “健康 检查 ”、“ 卫 生 检 查 ”。 其 中 00947 
检查 的 是 区 间 的 大 小 既 不 为 0， 也 不 能 太 大 测 越 出 了 32 位 地 址 空间 的 限制 。 物 理 地 址 0xa0000 至 
0x100000 用 十 VGA 卡 和 BIOS， 这 是 在 系统 初始 化 时 就 映射 好 了 的 ， 不 能 侵犯 到 这 个 区 间 中 去 。121 
行 中 的 high. memory 是 在 系统 初始 化 时 ， 根 据 检测 到 的 物理 内 存 大 小 设置 的 物理 内 存 地 址 的 上 限 〔 所 
对 应 的 虚拟 地 址 )。 如 果 所 要 求 的 phys_addr 小 丁 这 个 上 限 的 话 ， 就 表示 与 系统 的 物理 内 存 有 冲突 了 ， 
除非 相应 的 物理 页 面 原 米 就 是 保留 着 的 空洞 。 在 通过 这 些 检查 以 后 ， 还 要 保证 该 物理 地 址 是 按 抽 向 边 
界 对 齐 的 〈136 一 138 行 )。 

完成 了 这 些 准 备 以 后 ， 这 44“ 广 归 止 传 ”。 首 先是 要 找到 片 虚 存 地 址 区 间 。 前 和 面 讲 过 ， 这 片区 间 
属于 内 核 ， 而 不 属于 任何 个 特定 的 进程 ， 所 以 不 是 在 某 个 进程 的 mm. struct. 结构 中 的 虚 存 区 间 队 列 
中 去 寻找 , 而 是 从 属于 内 核 的 虚 存 区 间 队 列 中 去 寻找 。 函 数 get. vm. ara ) 是 在 mm/vmalloc.c 中 定义 的 : 


[ioremap( ) > __ioremap( ) > get_vm_area( )] 


168 struct vm_struct * get_vm_area(unsigned long size, unsigned long flags) 
169 f 


170 unsigned long addr; 

171 struct vm struct **p, *tmp, *area; 

172 

173 area = (struct vm struct *) kmalloc (sizeof (#area), GFP KERNEL); 
174 if (!area) 

175 return NULL; 

176 size += PAGE SIZE; 

177 addr = VMALLOC START; 

178 write lock(&vmlist lock); 

179 for (p = &vmlist; (tmp = *p) ; p = &tmp—next) | 
180 if ((size + addr) < addr) 1 
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181 write unlock(&vmlist lock); 
182 kfree(area); 

183 return NULL; 

184 } 

185 if (size + addr < (unsigned long) tmp—>addr) 
186 break; 

187 addr = tmp->size + (unsigned long) tmp-^addr; 
188 if (addr > VMALLOC END-size) { 
189 write unlock(&vmlist lock); 
190 kfree (area); 

191 return NULL; 

192 } 

193 } 

194 area—>flags = flags; 

195 area—>addr = (void *)addr; 

196 area-?size = size; 

197 area-2next = *p; 

198 *p — area; 

199 write unlock(&vmlist lock); 

200 return area; 

200. ] 


内 核 为 自己 保持 一 个 虚 存 区 间 队 列 vmlist， 这 是 由 一 串 vm struct 数据 结构 组 成 的 “个 单 链 队列 。 
XX £ B vm struct 和 vmlist 都 是 由 内 核 专 用 的 。vm_struct 从 概念 上 说 类 似 于 供 进程 使 用 的 
vm_area_struct， 但 要 简单 得 多 ， 定 义 于 include/linux/vmalloc.h 和 mm/vmalloc.c 中 ， 


14 struct vm struct | 


15 unsigned long flags; 

16 void * addr; 

17 unsigned long size; 

18 struct vm struct * next; 
194 Jr 


18 struct vm struct * vmlist; 

EAB EXE. AREH AR Ze IRI E UU RE E; I FE HABERI TEZE3E— PPS RA KAR, Ae 
地 址 上 加 上 一 个 3GB [If dde SSI T VERBA MES. 而 变量 high memory 标志 着 具体 物理 内 存 的 
凸 限 所 对 应 的 虚拟 地 址 ， 这 是 在 系统 初始 化 时 设置 好 的 。 当 内 核 需要 一 片 虐 存 地 址 空间 时 ， 就 从 这 个 
地 址 以 上 8MB 处 分 配 。 为 此 ， 在 include/asm-i386/pgtable.h 中 定义 了 VMALLOC_START & Xs 


132 /* just any arbitrary offset to the start of the vmalloc VM area: the 


133 * current 8MB value just means that there will be a 8MB "hole" after the 
134 * physical memory until the kernel virtual memory starts. That means that 
135 * any out-of-bounds memory accesses will hopefully be caught. 

136 * The vmalloc( ) routines leaves a hole of 4kB between cach vmalloced 
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137 * area for the same reason. ;) 

138 */ 

139 define VMALLOC OFFSET (8*1024*1024) 

140 tdefine VMALLOC START (((unsigned long) high memory + 2*VMALLOC OFFSET-1) &\ 
141 ~ (VMALLOC. OFFSET-1)) 

142 define VMALLOC_VMADDR(x) ((unsigned long) GO) 

143 Hdefine VMALLOC END | (FIXADDR START) 





源 代码 中 的 注解 对 于 为 什么 赣 留 下 一 个 8MB 的 空洞 , 以 及 在 每 次 分 配 虚 存 区 间 时 也 要 留 下 一 个 页 
面 的 空洞 ( 见 132 行 ) 解释 得 很 清楚 : 是 为 了 便于 捕 搜 可 能 的 越界 访问 。 

这 里 读者 可 能 会 有 个 问题 ，185 行 的 if 语句 检查 的 是 当前 的 起 始 地 址 加 上 区 间 大 小 须 小 于 下 个 
区 间 的 起 始 地 址 ， 这 是 很 好 理解 的 。 可 起 176 行 在 区 间 大 小 上 又 加 了 一 个 页 面 作为 空洞 。 这 个 空 澜 页 
面 难道 不 可 能 与 下 一 个 区 间 的 起 始 地 址 冲突 吗 ? 这 里 的 奥妙 在 于 185 行 判定 的 条 件 是 “< "而 不 是 "<=”， 
并 且 size 和 addr 都 是 按 页 而 边界 对 齐 的 ， 所 以 185 行 的 条 件 已 经 隐 含 着 其 中 有 - -个 页 面 的 空洞 。 从 
get vm area( ) 成 功 返回 时 ， 就 标志 着 所 需要 的 一 片 虚 存 空间 已 经 分 配 好 了 ， 从 返回 的 数据 结构 可 以 得 
到 这 片 空间 的 起 始 地 址 。 下 和 面 就 是 建立 映射 的 事 了 。 

宏 定义 VMALLOC_VMADDR 我 们 已 经 在 前 面 看 到 过 了 ， 实 际 上 不 做 什么 事情 ， 只 是 类 型 竺 换 。 
函数 remap_area_pages( ) 的 代码 也 在 arch/1386/mm/ioremap.c "T: 


[ioremap( ) > ___ioremap( ) > remap_area_pages( )] 


62 static int remap area pages (unsigned long address, unsigned long phys_addr, 


63 unsigned long size, unsigned long flags) 
64 { 

65 ped t * dir; 

66 unsigned long end = address + size; 

67 

68 phys addr -= address; 

69 dir = pgd offset (&init_mm, address); 

70 flush cache all( ); 

71 if (address >= end) 

72 BUG( ) ; 

73 do { 

74 pmd t *pmd; 

15 pmd = pmd alloc kernel(dir, address); 

76 if (!pmd) 

TT return -ENOMEM; 

78 if (remap area pmd(pmd, address, end - address, 
79 phys addr + address, flags) ) 

80 return -ENOMEM; 

81 address = (address + PGDIR SIZE) & PGDTR_MASK; 
82 dirt, 

83 ) while (address && (address < end)); 

84 flush tlb all(); 

85 return 0; 

86  ] 
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我 们 讲 过 ， 每 个 进程 的 task. struct 结构 中 部 有 一 个 指针 指向 mm_strcuct 结构 ， 从 中 可 以 找到 相应 
的 页 面 日 录 。 但 是 , 内 核 空 间 不 属于 任何 一 个 特定 的 进程 , 所 以 单独 设置 了 一 个 内 核 专用 的 mm, struct, 
称 为 initmm。 当 然 ， 内 核 也 没有 代表 它 的 task. struct 结构 ， 所 以 69 行 根据 起 始 地 址 从 init_mm 中 找 
到 所 属 的 目录 项 ， 然 后 就 根据 区 间 的 大 小 走 遍 所 有 涉及 的 目录 项 。 这 里 的 68 行 看 似 奇怪 。 从 物理 地 址 
中 减 去 虚拟 地 址 得 出 一 个 负 的 位 移 量 , 这 个 位 移 量 在 78 一 79 行 又 与 虚拟 地 址 相 加 , 仍旧 得 到 物理 地 址 。 
由 二 在 循环 中 虚拟 地 址 address 在 变 ( 见 81 行 ), 物理 地 址 也 就 相应 而 变 。 第 75 111 pmd. alloc. kernel( ) 
对 十 1386 CPU 就 是 pmd_alloc( )， 定 义 于 include/asm-i386/pgalloc.h : 


151 #define pmd_alloc_kernel pmd alloc 


iff inline FK ZI pmd_alloc( ) 的 定义 则 有 两 个 ， 分 别 用 于 二 级 和 三 级 映射 。 对 于 … 级 映射 这 个 定义 
A CHL include/asm-i386/pgtable_2level.h): 


[ioremap( ) > __ioremap( ) > remap_area_pages( ) > pmd_alloc( )] 


16 extern inline pmd t * pmd alloc(pgd t *pgd, unsigned long address) 
17 { 


18 if (!pgd) 

19 BUG ( ) ; 

20 return (pmd t *) pgd; 
21 ] 


AD, MT 1386 OAR, HUGE DL IRE ARAM PARE, 5 "4 EU Kip EE 


到 ”中 间 目 杂项 而 已 ， 只 有 在 中 间 目 录 项 为 空 时 才 真 的 分 配 一 个 。 

这 样 ，remap_area_pages( ) 中 从 73 行 开始 的 do while 循环 ， 对 涉及 到 的 每 个 页 面 日 录 表 项 调用 
remap_area_pmd( )。 而 remap area pmd( ) 几 平 完 全 一 样 ,， 对 涉及 到 的 每 个 页 和 面 表 (对 1386 的 二 级 映射 ， 
每 个 中 间 上 日 录 项 实际 上 就 古 “个 页 面 表 项 ， 也 中 以 理解 为 中 间 上 崩 录 表 的 大 小 为 1) 调用 
remap_area_pte( )， 这 也 是 在 arch/i386/mm/ioremap.c 中 定义 的 : 


[ioremap( ) > __ioremap( ) > remap_area_pages( ) > remap area pmd ( ) > remap_area_pte( )] 


15 static inline void remap area pte(pte t * pte, unsigned long address, 
unsigned long size, 


16 unsigned long phys addr, unsigned long flags) 
17 { 

18 unsigned long end; 

19 

20 address &- ~PMD MASK: 
21 end - address + size; 
22 if (end > PMD SIZE) 
23 end - PMD SIZE; 
24 if (address >= end) 
25 BUG( ) ; 

26 do { 


.159 . 


Linux 内 核 源 代码 情景 分 析 ( ERI 


27 if (!pte_none(*pte)) { 
28 printk("remap_area_ pte: page already exists\n”); 
29 BUG( ) ; 
30 } 
31 set pte(pte, mk pte phys(phys_addr， 
— pgprot( PAGE PRESENT | PAGE RW | 
32 PAGE DIRTY | PAGE ACCESSED | flags))) ; 
dd address *- PAGE SIZE; 
34 phys addr *- PAGE SIZE; 
35 ptet*; 
36 ) while (address && (address € end)); 
37 } 


这 早 只 是 简单 地 在 循环 中 设置 页 面 表 中 所 有 涉及 的 页 面 表 项 (31 行 )。 每 个 表 项 都 被 预 设 成 
_PAGE_DIRTY、_PAGE_ACCESSED 和 _PAGE_PRESENTED. 

££ kswapd 换 出 页 面 的 情景 中 ， 我 们 已 经 看 到 kswapd 定期 地 、 循 环 地 、 依 次 地 从 task 结构 队列 中 
找 出 占用 内 存 页 面 最 多 的 进程 ， 然 后 就 对 该 进程 调用 swap_out_mm( ) 换 出 一 些 页 面 。 而 内 核 的 
mm. struct 结构 init mm 是 单独 的 ， 从 任何 一 个 进程 的 task 结构 中 都 到 达 不 了 init_mm。 所 以 ，kswapd 
根本 就 看 不 到 init mm 中 的 虚 存 区 间 ， 这 些 区 间 的 页 面 就 自然 不 会 被 换 出 而 长 驻 于 内 存 。 


2.12 系统 调用 brk() 


尽管 “可 见 度 ” 不 高 ，brk( ) 也 许 是 最 常 使 用 的 系统 调用 了 ， 财 户 进程 通过 它 向 内 核 申 请 空间 。 人 
们 常常 并 不 意识 到 在 调用 brk( )， 蛛 因 在 于 很 少 有 人 会 直接 使 用 系统 调用 brk( ) 向 系统 申请 空间 ， 而 总 
是 通过 像 malloc ) 一 类 的 C 语言 库 函 数 (或 诸 言 成 分 ， 如 C++ 中 的 new) 间接 地 用 到 brk( )。 如 果 把 
malloc( ) 想 像 成 零售 ，brk( ) 则 是 批发 。 库 函数 malloc( AHP HE (malloc 本 身 就 是 该 进程 的 一 部 分 ) 
维持 个 小 仓库 ， 当 进程 需要 使 用 更 多 的 内 存 空间 时 就 身 小 仓库 此 ,小 仓库 中 存量 不 足 时 就 通过 brk( ) 
问 内 核 批发 。 

前 面 讲 过 ， 等 个 进程 拥有 3G 字 节 的 用 户 虚 存 空 间 。 但是， 这 并 不 意味 着 用 户 进程 在 这 36 TN 
范围 里 可 以 任意 使 用 ， 因 为 虑 存 空间 最 终 得 映射 到 某 个 物理 存储 空间 (内 存 或 磁盘 空间 )， 才 真正 可 以 
使 用 ， 而 这 种 映射 的 建立 和 管理 则 由 内 核 处 理 。 所 谓 向 内 核 申 请 - : 块 空间 ， 是 指 请 求 内 核 分 配 COEUR 
存 区 间 和 相应 的 若干 物理 页 面 ， 首 建立 起 映射 关系 。 由 于 每 个 进程 的 虚 存 空间 都 很 大 〈3G)， 而 实际 需 
要 使 用 的 又 很 小 ， 内 核 不 可 能 在 创建 进程 时 就 为 整个 虚 存 空间 都 分 配 好 相应 的 物理 空间 并 建立 映射 ， 
而 只 能 是 需要 用 多 少 才 “ 分 配 ” 多 少 。 

那么 ,内 核 怎 样 管理 等 个 进程 的 3G 字 节 虚 存 空间 呢 ? 粗略 地 说 , 用 户 程序 经 过 编译 、 连 接 形 成 的 
喘 象 文件 中 有 一 个 代码 段 和 一 个 数据 段 (包括 data 段 和 bss 段 })， 其 中 代码 段 在 下 ， 数 据 段 在 上 。 数 据 
段 中 包括 了 所 有 静态 分 配 的 数据 空间 , 包括 全 局 变量 和 说 明 为 static 的 局 部 变量 。 这些 空间 是 进程 所 必 
须 的 基本 要 求 ， 所 以 内 核 在 建立 一 个 进程 的 运行 映 象 时 就 分 配 好 这 些 空间 ， 包 括 虚 存 地 三 区 间 和 物理 
页 面 ， 并 建立 好 “者 间 的 映射 。 除 此 之 外 ， 堆 栈 使 用 的 空间 也 属于 基本 要 求 ， 所 以 也 是 竺 建 立 进 称 时 
就 分 配 好 的 《但 可 以 扩充 )。 所 不 同 的 是 ， 堆 栈 空 间 安 置 在 虚 存 空间 的 项 部， 运行 时 由 项 向 下 延伸 ; f 
码 段 和 数据 段 则 在 底部 《注意 ， 不 要 与 X86 系统 结构 中 由 段 寄存 器 建立 的 “代码 段 ” 及 “数据 段 ” 相 
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混 消 ),， 在 运行 时 并 不 同上 伸展 。 而 从 数据 段 的 顶部 end. data 到 堆栈 段 地 址 的 下 沿 这 个 中 间 区 域 则 是 一 
个 局 大 的 空洞 ， 这 就 是 可 以 在 运行 时 动态 分 配 的 空间 。 最 初 ， 这 个 动态 分 配 空 间 是 从 进程 的 end data 
开始 的 ， 这 个 地 址 为 内 核 和 进程 所 共 知 。 以 后 ， 每 次 动态 分 配 一 块 “ 内 存 ” 这 个 边界 就 往 上 推进 一 段 
距离 ， 同 时 内 核 和 进程 都 要 记 下 当前 的 边界 在 哪里 。 在 进程 这 : 边 出 malloc ) 或 类 似 的 库 函 数 管理 ， 
而 仁 内 核 中 则 将 当前 的 边界 记录 住 进 程 的 mm struct 结构 中 。 具 体 地 说 ，mm_struct 结构 中 有 一 -个 成 分 
brk， 表 示 动 态 分 配 区 当前 的 底部 。 当 个 进程 需要 分 本 内存 时 ， 将 要 求 的 大 小 与 其 当前 的 动态 分 配 区 
底部 边界 机 加 ， 所 得 的 就 是 所 要 求 的 新 边界 ， 也 就 是 brk( ) 调 用 时 的 参数 brk。 当 内 核能 满足 此 求 时 ， 
系统 调用 brk( GRIPE 0， 此 后 新 旧 贞 个 边 内 之 问 的 虚 存 地 址 就 都 可 以 使 用 了 。 当 内 核发 现 无 法 满足 些 求 
《例如 物理 空间 已 经 分 配 完 )， 或 者 发 现 新 的 边界 已 经 过 于 逼近 设 十 顶部 的 堆栈 时 ， 就 拒绝 分 配 而 返回 
一 ] 。 
系统 调用 brk( ) 在 内 核 中 的 实现 为 sys_brk( )， 其 代码 在 mm/mmap.c 中 。 这 个 函数 既 可 以 用 来 分 配 

空间 ， 即 把 动态 分 配 区 底部 的 边界 往 上 推 ， 也 可 以 用 来 释放 ， 即 归还 空间 。 因 此 ， 它 的 代码 也 大 致 上 
可 以 分 成 两 部 分 。 我 们 先 读 第 部 分 : 





[sys. brk( )] 


113 /* 

114 * sys brk( ) for the most part doesn't need the global kernel 
115 * lock, except when an application is doing something nasty 
116 * like trying to un-brk an area that has already been mapped 
117 * to a regular file. in this case, the unmapping will need 
118 * to invoke file system routines that need the global lock. 
[19 */ 

120 asmlinkage unsigned long sys brk(unsigned long brk) 

121 { 

122 unsigned long rlim, retval; 

123 unsigned long newbrk, oldbrk: 

124 struct mm struct *mm = current-^mm; 

125 

126 down (&mm .>mmap som); 

127 

128 if (brk < mm-^end code) 

129 goto out; 

130 newbrk = PAGE ALIGN (brk) ; 

131 oldbrk = PAGE ALIGN(mm-Pbrk); 

132 if (oldbrk -- newbrk) 

133 goto set brk; 

134 

135 /* Always allow shrinking brk. */ 

136 if (brk <= mm->brk) { 

137 if (!do munmap(mm, newbrk, oldbrk-newbrk)) 

138 goto set brk; 

139 goto out; 

140 | 

141 
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参数 ork 表示 所 要 求 的 新 边界 ， 这 个 边界 不 能 低 十 代码 段 的 终点 ， 并 且 必 须 与 页 面 大 小 对 齐 。 如 
边界 低 于 老 边 界 ， 那 就 不 是 申请 分 配 空间 ， 而 是 释放 空间 ， 所 以 道 过 do munmap( ) 解 除 一 部 分 区 
映射 ， 这 是 个 重要 的 函数 。 其 代码 在 mm/mmap.c P: 


[sys_brk( ) > do_munmap( )] 


664 
665 
666 
667 
668 
669 
670 
671 
672 
673 
674 
675 
676 
677 
678 
679 
680 
681 
682 
683 
684 
685 
686 
687 
688 
689 
690 
691 
692 
693 
694 
695 
696 


本 相 
的 第 


/* Munmap is split into 2 main parts -- this part which finds 

* what needs doing, and the areas themselves, which do the 

* work. This now handles partial unmappings. 

* Jeremy Fitzhardine <jeremy@sw. oz. au? 

*/ 

int do munmap (struct mm struct *mm, unsigned long addr, size_t len) 


{ 


struct vm area struct *mpnt, *prev, **npp, *free, *extra; 


if ((addr & "PAGE MASK) || addr > TASK SIZE || len > TASK SIZE-addr) 
return -EINVAL; 


if ((len = PAGE ALIGN(len)) == 0) 
return —EINVAL: 


/* Check if this memory area is ok ~ put it on the temporary 
* list if so.. The checks here are pretty simple — 
* every area affected in some way (by any overlap) is put 


* on the list. If nothing is put on, nothing is affected. 
*/ 
mpnt = find vma prev(mm, addr, &prev) ; 
if (!mpnt) 
return 0; 


/* we have addr < mpnt—>vm_end */ 


if (mpnt->vm_start >= addrtlen) 
return Q; 


/* If we'll make “hole”, check the vm areas limit */ 
if ((mpnt-^vm start < addr && mpnt-?vm end > addrtlen) 
&& mm->map count >= MAX MAP COUNT) 
return -ENOMEM; 


函数 find. vma, prev( ) 的 作用 与 以 前 在 “ 几 个 重要 的 数据 结构 和 函数 ”一 市 中 读 过 的 find. vma( ) 基 
同 ， 它 扫描 当前 进程 用 户 空间 的 vm area struct 结构 链表 或 AVL 树 ， 试 图 找到 结束 地 址 高 于 addr 
AKH, WRR URARENA EHI vm. area, struct 结构 指针 。 不 同 的 是 ， 包 同时 还 通过 参 


数 prev 返回 其 前 一 区 间 结 构 的 指针 。 等 -下 我 们 就 将 看 到 为 什么 需要 这 个 指针 。 如 果 返 出 的 指针 为 0， 


或 者 
直接 


该 区 间 的 起 始 地 址 也 高 于 addr+rlen， 那 就 表示 想 上 要 解除 映射 的 那 部 分 空间 己 来 就 没有 映射 ， 所 以 
X&[el 0。 如 果 这 部 分 空间 洲 在 某 个 区 间 的 中 间 , 则 在 解除 这 部 分 空间 的 映射 以 后 会 造成 一 个 字 洞 而 


. 162 . 


第 2 章 存储 管理 
使 原来 的 区 间 一 分 为 二 。 可 是 ， 一 个 进程 可 以 拥有 的 虚 存 区 间 的 数量 是 有 限制 的 ， 所 以 若 这 个 数量 达 
到 了 上 限 MAX_MAP_COUNT， 就 不 再 允许 这 样 的 操作 。 
我 们 继续 往 下 看 : 





[sys_brk( ) > de_munmap( )] 


697 /* 

698 * We may need one additional vma to fix up the mappings ... 
699 * and this is the last chance for an easy error exit. 
100 */ 

701 extra = kmem cache alloc(vm area cachep, SLAB KERNEL); 
102 if (lextra) 

103 return —ENOMEM; 

704 

705 npp = (prev ? &prev->vm next : &mm—>mmap) ; 

706 free = NULL; 

707 spin lock(&mm-^page table lock); 

708 for ( ; mpnt && mpnt—>vm_start < addr*len; mpnt = *npp) | 
709 *npp = mpnt-»vm next; 

710 mpnt—>vm next = free; 

711 free - mpnt; 

712 if (mm—->mmap_av1) 

713 avl remove(mpnt, &mm->mmap_av1); 

714 } 

715 mm-»mmap cache = NULL; /* Kill the cache. */ 

716 spin unlock(&mm-^page table lock); 

717 


由 于 解除 一 部 分 空间 的 映射 有 可 能 使 原 米 的 区 间 一 分 为 二 ， 所 以 这 里 先 分 配 好 一 个 空白 的 
vm area struct 结构 extra。 男 一 方面 ， 要 解除 映射 的 那 部 分 空间 也 有 可 能 跨越 好 几 个 区 间 ， 所 以 通过 一 
个 for 循环 把 所 有 涉及 的 区 间 邦 转移 到 一 -个 临时 队列 free 中 ， 如 果 建 立 了 AVL 树 ， 则 也 要 把 这 些 区 间 
的 vm area struct 结构 从 AVL 树 中 删除 。 以 前 讲 过 ，mm_struct 结构 中 的 指针 mmap_cache 指向 上 -次 
find_vma( ) 操 作 的 对 象 ， 因 为 对 虚 存 区 间 的 操作 往往 是 有 连续 性 的 〈 见 find. vma( ) 的 代码 》， 而 现在 用 
户 空 间 的 结构 有 了 安 化 ,多 半 已 经 打破 了 这 种 连续 性 , 所 以 把 它 清 成 0。 至 此 , 已 经 完成 了 所 有 的 准备 ， 
让 面 就 要 上 员 体 解除 映射 了 。 


[Sys brk( ) > do_munmap( )] 


718 /* Ok - we have the memory areas we should free on the 'free' list, 
119 * so release them, and unmap the page range.. 

120 * If the one of the segments is only being partially unmapped, 

121 * it will put new vm area struct(s) into the address space. 

122 * |n that case we have to be careful with VM DENYWRITE. 

123 */ 

724 while ((mpnt = free) != NULI) { 

725 unsigned long st, end, size; 
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726 struct file *file = NULL; 

727 

728 free = free->vm next; 

729 

730 st = addr < mpnt~>vm_start ? mpnt->vm_start : addr; 
731 end = addr+len; 

732 end = end > mpnt->vm_end 2 mpnt-?vm_end : end; 

733 size = end - st; 

734 

735 if (mpnt->vm flags & VM DENYWRITE && 

736 (st != mpnt->vm start || end != mpnt->vm_end) && 
737 (file = mpnt->vm file) != NULL) { 

738 atomic dec (&file->f_dentry—>d_inode->i_writecount) ; 
739 } 

740 remove shared vm struct (mpnt) ; 

141 mm-»map count--; 

142 

743 flush cache range(mm, st, end); 

144 zap page range(mm, st, size); 

745 flush tlb range(mm, st, end); 

146 

747 /* 

148 * Fix the mapping, and free the old area if it wasn’t reused. 
149 */ 

750 extra = unmap fixup(mm, mpnt, st, size, extra); 

751 if (file) 

752 atomic inc (&file>f_dentry—>d_inode->i_writecount) ; 
153 } 

754 

755 /* Release the extra vma struct if it wasn’t used */ 

756 if (extra) 

757 kmem_cache_free(vm_area_cachep, extra); 

758 

759 free pgtables(mm, prev, addr, addr+len) ; 

760 

761 return 0; 

762 } 


这 里 通过 一 个 while 循环 逐个 处 理 所 涉 及 的 区 间 ， 这 些 区 癌 的 vm_area_struct 结构 都 链接 在 一 个 临 
时 的 队列 free 中 。 在 下 一 节 中 读者 将 看 到 ， -个 进程 可 以 通过 系统 调用 mmap( ) 将 一 个 文件 的 内 容 映 对 
到 其 用 户 空 间 的 某 个 区 间 ， 然 后 就 像 访问 内 存 -一 样 来 访问 这 个 文件 。 但 是 ， 如 果 这 个 文件 同时 又 被 别 
的 进程 打开 ， 并 通过 常规 的 文件 操作 访问 ， 则 在 二 者 对 此 文件 的 两 种 不 同形 式 的 写 操作 之 间 要 加 以 互 
斥 。 如 果 要 解除 映射 的 只 是 这 样 的 区 间 的 一 部 分 0735 一 737 行 )， 那 就 相当 于 对 此 区 间 的 写 操作 ， 所 以 
要 递减 该 文件 的 inode 结构 中 的 一 个 计数 器 i_writecount, LAPRUE ALR, 到 操作 完成 以 后 母子 恢复 (751 一 
752 行 )。 同 时 ， 还 柴 通 过 remove_shared_vm_struct( ) 和 看 看 所 处 理 的 区 间 是 否 是 这 样 的 区 间 ， 如 果 是 ， 
就 将 其 vm_area_struct 结构 从 目标 文件 的 inode 结构 内 的 i_mapping 队列 中 脱 链 。 
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代码 中 的 zap_page_range( ) 解 除 若 干 连续 页 面 的 映射 ， 并 且 释 放 所 了 映射 的 内 存 页 面 ， 或 对 交换 设备 
上 物理 页 面 的 引用 ， 这 才 丰 我 们 在 这 里 所 主 时 关心 的 。 其 代码 在 mm/memory.c "f; 


[sys_brk( ) > do_munmap( ) > zap_page_range( )] 


348 /* 

349 * remove user pages in a given range. 

350 */ 

351 void zap page range (struct mm struct *mm, unsigned long address, 
unsigned long size) 

352 (| 

353 pgd t * dir; 

354 unsigned long end = address + size; 

355 int freed = 0; 

356 

357 dir = pgd offset(mm, address); 

358 

359 /* 

360 * This is a long-lived spinlock. That's fine. 

361 * There's no contention, because the page table 

362 * lock only protects against kswapd anyway, and 

363 * even if kswapd happened to be looking at this 

364 * process we want it to get stuck. 

365 */ 

366 if (address >= end) 

367 BUG( ); 

368 spin lock(&mm-^page table lock); 

369 do { 

370 freed += zap pmd range(mm, dir, address, end - address); 

371 address = (address + PGDIR SIZE) & PGDIR MASK; 

372 dirt*; 

373 } while (address && (address < end)); 

374 spin unlock(&mm-»page table lock); 

315 /* 

376 * Update rss for the mm struct (not necessarily current—>mm) 

377 * Notice that rss is an unsigned long. 

378 */ 

379 if (mm->rss > freed) 

380 mm-»rss -= freed; 

381 else 

382 mm->rss = 0; 

383 } 





这 个 函数 解除 一 块 虐 存 区 间 的 页 面 映射 。 首先 通过 pgd_offset( ) 在 第 一 层 页 面目 录 中 找到 起 始 地 址 
所 属 的 目录 项 ， 然 后 就 通过 一 个 do-while 循环 从 这 个 目录 项 开始 处 理 涉及 的 所 有 日 录 项 。 


312 "define pgd_index (address) ((address >> PGDIR SHIFT) & (PTRS PER PGD-1)) 
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316  #define pgd offset(mm, address) ((mm)->pgd+pgd_index (address) ) 


对 于 涉及 的 每 一 个 目录 项 ， 通 过 zap_pmd_range( ) 处 理 第 二 层 的 中 间 日 录 表 。 


[sys_brk( ) > do_munmap( ) > zap_page_range( ) > zap_pmd_range( `] 


321 static inline int zap_pmd_range (struct mm_struct *mm, pgd_t * dir, 
unsigned long address, unsigned long size) 

322 { 

323 pmd t * pmd; 

324 unsigned long end; 

323 int freed; 

326 

327 if (pgd_none (dir) ) 

328 return 0; 

329 if (pgd_bad(*dir)) { 

330 pgd ERROR (*dir) ; 

331 pgd clear (dir); 

332 return 0; 

333 } 

334 pmd = pmd_offset(dir, address) ; 

335 address &= "PGDIR MASK; 

336 end = address + size; 

337 if (end > PGDIR SIZE) 

338 end = PGDIR SIZE; 

339 freed = 0; 

340 do { 

341 freed += zap pte range(mm, pmd, address, end - address); 

342 address = (address + PMD SIZE) & PMD MASK; 

343 pmd++ ; 

344 } while (address < end); 

345 return freed; 

346  ) 


同样 ， 先 通过 pmd_offset( )， 在 第 二 层 日 录 表 中 找到 起 始 目录 项 。 对 于 采用 二 级 映射 的 386 结构 ， 
中 间 目 录 表 这 一 层 是 空 的 。pmd_offset( ) 的 定义 在 include/asm-i386/pgtable-2level.h 中 ， 





53 extern inline pmd t * pmd offset(pgd t * dir, unsigned long address) 
54 { 

55 return (pmd t *) dir; 

56} 


Fy JL, pmd_offset( ) 把 指向 第 一 层 目录 项 的 指针 原封 不 动 地 作为 指向 中 间 旦 录 项 的 指针 返回 来 了 ， 
也 就 是 说 把 第 一 层 目 录 当成 了 中 间 目 录 。 所 以 ， 对 于 二 级 映射 ，zap_pmd_range( ) 在 其 种 意义 上 只 是 把 
zap page range( ) 所 做 的 事 重复 了 - 遍 。 不 过 ， 这 一 次 重复 调用 的 是 zap_pte_range( )， 处 理 的 是 底层 的 
页 面 映射 表 了 。 
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[sys_brk( ) > do_munmap( ) > zap_page_range( ) > zap omd range( ) > zap_pte_range( )] 


289 static inline int zap_pte_range (struct mm struct *mm, pmd t * pmd, 
unsigned long address, unsigned long size) 

290 { 

291 pte_t * pte; 

292 int freed; 

293 

294 if (pmd none (*pmd) ) 

295 return 0: 

296 if (pmd bad(*pmd)) { 

297 pmd ERROR (*pmd) ; 

298 pmd clear (pmd); 

299 return 0; 

300 } 

301 pte = pte offset(pmd, address); 

302 address &- "PMD MASK; 

303 if (address + size > PMD SIZE) 

304 size = PMD SIZE - address; 

305 size >>= PAGE SHIFT; 

306 freed = 0; 

307 for (224 

308 pte t page; 

309 if (!size) 

310 break; 

311 page - ptep get and clear(pte); 

312 ptett: 

313 size -; 

314 if (pte none(page)) 

315 continue; 

316 freed += free pte(page); 

317 ) 

318 return frced; 

319  ) 


Xe E AG TR BITE ERE R R PERRI, 与 pte. offset( ) 有 关 的 定义 在 include/asm-i386/pgtable.h 中 : 


324 /* Find an entry in the third-level page table.. */ 
325 Hdefine | pte offset (address) \ 


326 ((address >> PAGE SHIFT) & (PTRS PER PTE - 1» 
327 üdefine pte_offset (dir, address) ((pte t *) pmd_page(*(dir)) + \ 
328 _ pte offset (address)) 


REMEE A for 循 坏 中 ， 对 需要 解除 映射 的 页 面 调 用 ptep. get and. clear( ) 将 页 面 表 项 清 成 0: 


57 #define ptep get and clear (xp)  __pte(xchg(&(xp)->pte_low, 0)) 
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最 后 道 过 free_pte( ) 解 除 对 内 存 页 面 以 及 盘 土 页 面 的 使 用 ， 这 个 函数 的 代码 在 mm/memory.c H: ° 


[sys brk( ) > do_munmap( ) > zap page range( ) > zap_omd_range( ) > zap. pte range( ) > free pte( )] 


259 /* 

260 * Return indicates whether a page was freed so caller can adjust rss 
261 */ 

262 static inline int free pte(pte t pte) 

263 { 

264 if (pte present (pte)) { 

265 struct page *page = pte page (pte) ; 

266 if ((IVALID PAGE(page)) || PageReserved (page) ) 
267 return 0; 

268 /* 

269 * free page( ) used to be able to clear swap cache 
270 * entries. We may now have to do it manually. 
271 */ 

272 if (pte dirty (pte) && page-^mapping) 

273 set_page_dirty (page) ; 

274 free page_and_swap_cache (page) ; 

275 return 1; 

276 } 

277 swap free(pte_to_swp_entry (pte)) ; 

278 return 0; 

279} 


如 果 页 面 表 项 表明 在 解除 映射 前 页 面 就 已 不 在 内 存 ， 则 当前 进程 对 该 内 存 页 面 的 使 用 已 经 解除 ， 

所 以 只 需 调 用 swap_free( ) 解 除 对 交换 设备 上 上 的“ 盘 上 页 面 ”的 使 用 。 当 然 ，swap_free( ) 首 先是 递减 盐 
上 页 面 的 使 用 计数 ， 只 有 当 这 个 计数 达到 0 时 才 真正 地 释放 了 这 个 盘 LUND. RR AE ee EE 
EF 页 面 的 最 后 一 个 用 户 (或 惟一 的 用 户 ，)， 则 该 计数 递减 后 为 0. RZ, MEHN 
free_page_and_swap_cache( ) 解 除 对 盘 上 页 面 和 内 存 页 面 :者 的 使 用 。 此 外 ， 如 果 页 而 在 最 近 一 次 
try_to_swap_out( ) 以 后 已 被 写 过 ， 则 还 要 通过 set_page_dirty( ) 设 置 该 页 面 page 结构 中 的 PG. dirty 标志 
位 , 并 在 相应 的 address. space 结构 中 将 其 移入 dirty_pages 队列 。 函数 free_page_and_swap_cache( ) 的 代 
码 在 mm/swap_state.c 中 


[sys. brk( ) > do_munmap( ) > zap_page_range( ) > zap_omd_range( ) > zap pte range( ) > free pte( ) > 
free_page_and_swap_cache( )] 


133 /* 

134 * Perform a free page( ), also freeing any swap cache associated with 
135 * this page if it is the last user of the page. Can not do a lock_page, 
136 * as we are holding the page table lock spinlock. 

137 */ 

138 void free page and swap cache (struct page *page) 

139 | 

140 /* 
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141 * [f we are the only user, then try to free up the swap cache. 
142 */ 

143 if (PageSwapCache(page) && !TryLockPage(page)) { 

144 if (tis page shared(pago)) { 

145 delete from swap cache nolock(page); 

146 } 

147 UnlockPage (page) ; 

148 } 

149 page_cachc_release (page) ; 

150 } 


以 前 讲 过 ， 一 个 有 用 户 空间 映射 、 可 换 出 的 内 存 页 而 《确切 地 说 是 它 的 page 数据 结构 )， 间 时 在 
寺 个 队列 中 。 一 是 通过 其 队列 头 dist 链 入 其 个 换 入 7/ 换 出 队列 ， 即 相应 address_space 结构 中 的 
clean pages. dirty pages 以 及 locked. pages 二 个 队列 之 一 ;二 起 通过 其 队列 头 lm 链 入 某 个 LRU 队列 ， 
即 active list, inactive dirty. list 或 者 某 个 inactive clean list 之 一 ; 最 后 就 是 通过 指针 next hash 链 入 一 
个 烧 凑 队列 。 当 … 个 页 面 在 某 个 换 入 /7 换 出 队列 中 时 ， 其 page 结构 中 的 PG. swap. cache 标志 位 为 1， 
九条 当前 进程 足 这 个 页 而 的 最 后 一 个 用 户 (或 惟一 用 户 ), 此 时 便 要 调用 delete_from_swap_cache_nolock( ) 
将 页 面 从 上 述 队 列 中 脱离 出 来 。 


[sys brk( ) > do_munmap( ) > zap. page range( ) > zap_omd_range( ) > zap pte, range( ) 
> free pte( ) > free page and swap cache( ) > delete from swap cache nolock( )] 


103 /* 

104 * This will never put the page into the free list, the caller has 
105 * a reference on the page. 

106 */ 

107 void delete from swap cache nolock (struct page *page) 
108 { 

109 if (!PageLocked (page) ) 

110 BUG( ) ; 

111 

112 if (block flushpage(page, 0)) 

113 lru cache del (page) : 

114 

115 spin lock(&pagecache lock); 

116 ClearPageDirty (page) ; 

117 __delete_from_swap_cache (page) ; 

118 spin_unlock (&pagecache_lock) ; 

119 page cache relcase (page) ; 

120 .] 


先 通 过 block. flushpage( ) 把 页 面 的 内 容 “ 冲 刷 ” 到 块 设备 上 ， 不 过 实际 上 这 种 冲 删 仅 在 页 面 来 自 C 
个 映射 到 用 户 空间 的 文件 时 才 进 行 ， 因 为 对 于 交换 设备 上 的 页 面 ， 此 时 的 内 容 已 经 没有 意义 了 。 完 成 
了 冲刷 以 后 ， 就 通过 lru_cache_del( ) 将 页 血 从 其 所 在 的 LRU 队列 中 脱离 出 来 。 然 后 ， 上 髓 通过 
__delete_from_swap_cache( )， 使 页 面 脱离 其 他 两 个 队列 。 
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[sys brk( ) > do_munmap( ) > zap page range( ) > zap_omd_range( ) > zap. pte range( ) 
> free pte( ) > free page and swap. cache( ) > delete from swap, cache nolock( ) 
» delete from swap. cache( )] 





86 /* 

87 * This must be called only on pages that have 
88 * been verified to be in the swap cache. 

89 */ 

90 void | delete from swap cache (struct page *page) 
91 { 

92 swp_entry_t entry; 

93 

94 entry. val = page->index; 

95 

96 #ifdef SWAP CACHE 1NFO 

97 swap cache del total-t*; 

98 Hendif 

99 remove from swap cache (page) ; 

100 swap_free (entry) ; 

i101} 


这 里 的 remove. from swap cache( ) 将 页 面 的 page 结构 从 换 入 / PR BA FIURTTZR BAB t HK 
然后 ， 也 是 通过 swap free( )TEJX di ERM, |u|$] delete from swap. cache nolock( )。 最 后 是 
page cache release( )， 即 递减 page RJR EHEH iA. APSHA WEBER CHI. HHA 
解除 映射 之 前 抽 面 在 内 存 中 (见于 面 free_pte( ) 中 的 264 行 )， 所 以 页 面 的 使 用 计数 应 该 是 2， 这 里 《119 
fT) 调用 了 -次 page cache release( ) 就 使 其 变 成 了 1。 再 返回 旬 free page. and swap cache( ) 中 ， 这 里 

(149 47) 叉 调 用 了 一 次 page_cache_release( )， 这 一 次 就 使 其 变 成 了 0， 十 是 就 最 终 把 页 面 释放 ， 让 心 
加 到 了 空 朵 页 面 队列 中 。 

当 回 到 do_munmap( ) 中 的 时 候 ， 已 经 完成 了 对 一 个 虚 存 区 间 的 操作 。 此 时 ， 一 -方面 要 对 不 存 区 间 
的 vm area struct 数据 结构 和 进程 的 mm_struct 数据 结构 作出 调整 ， 以 反映 已 经 发 生 的 变化 ， 如 果 整 个 
区 问 都 解除 了 映射 , 则 要 释放 原 有 的 vm, area. struct 数据 结构 ; 男 。 方 徊 原来 的 区 间 还 可 能 要 -一 分 为 二 ， 
因而 需要 插入 个 新 的 vm_area_struct 数据 结构 。 这 些 操作 是 由 unmap fixup( ) 完 成 的 ， 其 代码 在 
mm/mmap.c 中 : 


[sys_brk( ) > do_munmap( ) > unmap fixup( )] 


516 /* Normal function to fix up a mapping 

517 * This function is the default for when an area has no specific 
518 * function. This may be used as part of a more specific routine. 
519 * This function works out what part of an area is affected and 
520 * adjusts the mapping information. Since the actual page 

521 * manipulation is done in do mmap( ), none need be done here, 

522 * though it would probably be more appropriate. 

523 * 

524 * By the time this function is called, the area struct has been 
525 * removed from the process mapping list, so it needs to be 
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526 
527 
528 
529 
530 
531 
532 
533 
534 
535 
536 
537 
938 
539 
540 
541 
942 
543 
544 
945 
946 
547 
548 
049 
950 
551 
902 
093 
554 
555 
556 
557 
998 
559 
560 
561 
562 
563 
564 
965 
966 
967 
968 
969 
910 
571 
572 
573 


* 
* 
* 
* 
* 
* 
水 
* 
* 
* 
* 
* 


*/ 


reinserted if necessary. 


The 4 main cases are: 
Unmapping the whole area 
Unmapping from the start of the segment to a point in it 
Unmapping from an intermediate point to the end 
Unmapping between to intermediate points, making a hole. 


Case 4 involves the creation of 2 new areas, for each side of 
the hole. [If possible, we reuse the existing area rather than 
allocate a new one, and the return indicates whether the old 
area was reused. 


static struct vm area struct * unmap fixup(struct mm struct *mn, 


struct vm area struct *area, unsigned long addr, size t len, 
struct vm area struct *extra) 


struct vm area struct *mpnt; 
unsigned long end - addr * len; 


area-»vm mm-2total vm -= len >> PAGE SHTFT; 
if (area->vm flags & VM LOCKED) 
area-»vm mm: »locked vm -= len >> PAGE SHIFT: 


/* Unmapping the whole area. */ 
if (addr == area-^»vm start && end == area-^vm end) { 
if (area-^vm ops && arca-^vm ops-?close) 
area->vm_ops~>close (area); 
if (arca vm file) 
fput (area->vm_ file); 
kmem cache free(vm area cachep, area); 
return extra; 


/* Work out to one of the ends. */ 
if (end == area-^vm end) { 
area-»vm end - addr; 
lock vma mappings (area); 
spin lock(&mm-^page table lock); 
} else if (addr == area—^vm start) | 
area—>vm_pgoff += (end - area~>vm_start) >> PAGE SHIFT; 
area—>vm_start = end; 
lock_vma_mappings (area) ; 
spin lock(&mm— page table lock); 
) else { 
/* Unmapping a hole: area—^vm start < addr <= end < area-5vm end */ 
/* Add end mapping —- leave beginning for below */ 
mpnt = extra; 
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574 extra = NULL; 
575 
576 mpnt-»vm mm = area->vm mm; 
577 mpnt->vm start = end; 
578 mpnt->vm_end = area-?vm end; 
579 mpnt->vm_page_prot = area-?vm page prot; 
580 mpnt-»vm flags = area-?vm flags; 
581 mpnt-?vm raend = 0; 
582 mpnt-2vm ops = area-?vm ops; 
583 mpnt-»vm pgoff = area->vm_pgoff + 
( (end - area-^vm start) >> PAGE SHIFT) ; 
584 mpnt-?vm file = area-?vm file; 
585 mpnt-2vm private data = area-?vm private data; 
586 if (mpnt-^vm file) 
587 get file(mpnt-^vm file); 
588 if (mpnt-^vm ops && mpnt~>vm ops-^open) 
589 mpnt-»vm ops->open (mpnt) ; 
590 area~>vm_end = addr; /* Truncate area */ 
591 
592 /* Because mpnt->vm file == area->vm file this locks 
593 * things correctly. 
594 */ 
595 lock_vma_mappings (area) ; 
596 spin lock(&mm-^page table lock); 
597 J. insert vm struct(mm, mpnt); 
598 } 
599 
600 . insert vm struct(mm, area); 
601 spin unlock (&mm—>page_ table lock); 
602 unlock vma mappings (area); 
603 return extra; 
604  ] 


我 们 把 这 段 代 码 留 给 读者 。 最 后 ， 当 循 坏 结束 之 时 ， 由 于 已 经 解除 了 一 些 页 面 的 映射 ， 有 些 页 击 
映射 表 可 能 整个 都 己 经 空白 ， 对 于 这 样 的 页 面 表 《〈 所 击 的 页 而 )》 t3 OL. ILL free_pgtables( ) 
完成 的 。 我 们 也 把 尼 的 代码 留 给 读者 (mm/mmap.c)。 


[sys_brk( ) > do munmap( ) > free_pgtables( )] 


606 /* 

607 * Try to free as many page directory entries as we can, 
608 * without having to work very hard at actually scanning 
609 * the page tables themselves. 

610 * 

611 * Right now we try to free page tables if we have a nice 
612 * PGDIR-aligned area that got free’ d up. We could be more 
613 * granular jf we want to, but this is fast and simple, 
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614 
615 
616 
617 
618 
619 


620 
621 
622 
623 
624 
625 
626 
627 
628 
629 
630 
631 
632 
633 
634 
635 
636 
637 
638 
639 
640 
641 
642 
643 
644 
645 
646 
647 
648 
649 
650 
651 
652 
653 
654 
655 
656 
657 
658 
659 
660 
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* and covers the bad cases. 
* 
* "prev', if it exists, points to a vma before the one 
* we just free'd - but there's no telling how much before. 
*/ 
static void free pgtables(struct mm struct * mm, 
struct vm area struct *prev, 
unsigned long start, unsigned long end) 


unsigned long first = start & PGDIR MASK; 
unsigned long last = end + PGDIR SIZE - 1; 
unsigned long start index, end index; 


if (!prev) { 

prev = mm-?mmap; 

if (prev) 
goto no_mmaps; 

if (prev->vm_end > start) { 
if (last > prev->vm_start) 

last = prev->vm_start; 

goto no mmaps; 


} 
for 41221 
struct vm area struct *next = prev-»vm next; 


if (next) { 
if (next-^vm start < start) { 
prev = next; 
continue; 
} 
if (last > next->vm_ start) 
last = next->vm_ start; 
j 
if (prev^vm end > first) 
first = prev-»5vm end + PGDIR SIZE - 1; 
break; 
} 
no mmaps: 
/水 
* If the PGD bits are not consecutive in the virtual address, the 
* old method of shifting the VA >> by PGDIR SHIFT doesn’ t work. 
*/ 
start index = pgd index (first); 
end index = pgd_index (last) ; 
if (end index > start index) { 
clear page tables(mm, start index, end index - start index); 
flush tlb pgtables(mm, first & PGDIR MASK, last & PGDIR MASK); 
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661 } 


[EJE sys_brk( ) 的 代码 中 ， 我 们 已 经 完成 了 通过 sys brk( REKE RP AT. 
如 果 新 边界 高 于 老 边界 ， 就 表示 虚 分 配 空间 ， 这 就 是 sys_brk( ) 的 后 一 部 分 。 我 们 继续 往 下 看 
(mm/mmap.c): 


[sys_brk( )] 


142 /* Check against rlimit.. */ 

143 rlim = current->rlim[RLIMIT DATA]. rlim cur; 

144 if (rlim < RLIM INFINITY && brk - mm->start_data > rlim) 
145 goto out; 

146 

147 /* Check against existing mmap mappings. */ 

148 if (find vma intersection(mm, oldbrk, newbrk-*PAGE SIZE)) 
149 goto out; 

150 

151 /* Check if we have enough memory.. */ 

152 if (!vm enough memory ((newbrk-oldbrk) >> PAGE SHIFT)) 
153 goto out; 

154 

155 /* Ok, looks good - let it rip. */ 

156 if (do brk(oldbrk, newbrk-oldbrk) !- oldbrk) 

157 goto out; 

158 set brk: 

159 mm-»brk = brk; 

160 out: 

161 retval = mm->brk; 

162 up (&mm->mmap_ sem); 

163 return retval; 

164 } 


首先 检查 对 进程 的 资源 限制 ， 如 果 所 要 求 的 新 边界 使 数据 段 的 大 小 超过 了 对 当前 进程 的 限制 ， 就 
哲 绝 执行 。 此 外 ， 还 要 通过 find_vma_intersection( )， 检 查 所 归 求 的 那 部 分 空间 是 否 与 已 经 存在 的 某 - 
区 间 相 冲突 ， 这 个 inline 函数 的 代码 在 include/linux/mm.h 4); 


[sys_brk( ) > find, vma, intersection( )] 


511 /* Look up the first VMA which intersects the interval 
start addr..end addr-1, 
512 NULL if none. Assume start addr < end addr. */ 
513 static inline struct vm area struct * 
find vma intersection (struct mm struct * mm, 
unsigned long start addr, unsigned long end addr) 
514 | 
515 struct vm area struct * vma = find vma (mm, start addr); 
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if (vma && end addr <= vma—>vm start) 
vma = NULL: 
return vma; 


这 里 的 start addr 是 老 的 边界 ， 如 果 find vma( ) 返 回 一 个 非 0 指针 ， 就 表示 在 它 之 上 已 经 有 了 一 个 


已 映射 区 逆 ， 因 此 有 冲突 的 可 能 。 此 时 新 的 边界 end addr 必须 落 在 这 个 区 闻 的 起 点 之 下 ， 也 就 是 让 从 
start addr 到 end_addr 这 块 空 间 落 在 空洞 中 ， 和 否则 便 是 有 了 冲突 。 在 查 明 了 不 存在 冲突 以 后 ， 还 要 通过 
vm enough memory( ) 看 看 系统 中 是 否 有 由 够 的 空闲 内 他 页 面 。 


[sys brk( ) > vm_enough_memory( )] 


4l 
42 
43 
44 
45 
46 
4T 
48 
49 
50 
51 
52 
53 
54 
95 
56 
of 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 


/* Check that a process has enough memory to allocate a 


* new virtual mapping. 


int vm_enough memory (long pages) 


| 


} 


/* Stupid algorithm to decide if we have enough memory: while 

* simple, it hopefully works in most obvious cases.. Easy to 

* fool it, but this should catch most mistakes. 

*/ 

/* 23/11/98 NJC: Somewhat less stupid version of algorithm, 

* which tries to do "TheRightThing'. Instead of using half of 
* (bufferstcache), use the minimum values. Allow an extra 2% 
* of num physpages for safety margin. 


*/ 
long free: 


/* Sometimes we want to use more memory than we have. */ 
if (sysctl overcommit memory) 
return 1; 


free = atomic read(&buffermem pages); 
free += atomic read(&page cache size): 
free += nr free pages( ); 

free *- nr swap pages; 

return free > pages; 


通过 了 这 些 检查 ， 接 着 就 是 操作 的 主体 do brkO f. xx eH RAI RASZE mm/mmap.c F: 


[sys_brk( ) > do_brk( )] 


775 
776 


/* 


this is really a simplified "do mmap”. it only handles 
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777 
778 
779 
780 
781 
782 
783 
784 
785 
786 
787 
788 
789 
790 
791 
792 
793 
794 
795 
796 
797 
798 
799 
800 
801 
802 
803 
804 
805 
806 
807 
808 
809 
810 
811 
812 
813 
814 
815 
816 
817 
818 
819 
820 
821 
822 
823 
824 


Linux 内 核 源 代码 情景 分 析 《上册 ) 


* anonymous maps. eventually we may be able to do some 
* brk-specific accounting here. 


unsigned long do brk(unsigned long addr, unsigned long len) 


{ 
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struct mm struct * mm = current-?mm; 
struct vm area struct * vma; 
unsigned long flags, retval; 


len = PAGE ALIGN(len) ; 
if (!len) 
return addr; 


/* 
* mlock MCL FUTURE? 
*/ 
if (mm-»def flags & VM LOCKED) | 
unsigned long locked = mm-^5locked vm << PAGE SHIFT; 
locked += len; 
if (locked > current-^rlim[RLIMIT. MEMLOCK]. rlim_cur) 
return -EAGAIN; 
} 


/* 
* Clear old maps. this also does some error checking for us 
*/ 
retval = do munmap(mm, addr, len); 
if (retval != 0) 
return retval; 


/* Check against address space limits *after* clearing old maps... 


if ((mm->total_ vm << PAGE SHIFT) + len 
> current-^rlim[RLIMIT AS]. rlim cur) 
return -ENOMEM; 


if (mm->map count > MAX MAP COUNT) 
return -ENOMEM; 


if (!vm enough memory (len >> PAGE SHIFT)) 
return -ENOMEM; 


flags = vm flags (PROT. READ|PROT WRTTE|PROT. EXEC, 
MAP FIXED|MAP PRIVATE) | mm->def flags; 


flags |- VM MAYREAD | VM MAYWRITE | VM MAYEXEC; 


/* Can we just expand an old anonymous mapping? */ 


*/ 
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825 if (addr) { 

826 struct vm area struct * vma = find vma(mm, addr-1); 
827 if (vma && vma-^vm end == addr && !vma-5vm file && 
828 vma-?»vm flags == flags) { 

829 vma-»vm end = addr + len; 

830 goto out; 

831 j 

832 } 

833 

834 

835 /* 

836 * create a vma struct for an anonymous mapping 
837 */ 

838 vma = kmem cache alloc(vm area cachep, SLAB KERNEL); 
839 if (!vma) 

840 return —ENOMEM: 

841 

842 vma-»vm mm = mm; 

843 vma-?2vm start = addr: 

844 vma-2vm end = addr + len; 

845 vma-^vm flags = flags; 

846 vma-?vm page prot = protection map[flags & OxOf]; 
847 vma-»vm ops = NULL; 

848 vma-?vm pgoff = 0; 

849 vma-^vm file = NULL; 

850 vma-?»vm private data = NULL; 

851 

852 insert vm struct(mm, vma); 

853 

854 out: 

855 mm-»total vm += len >> PAGE SHIFT; 

856 if (flags & VM LOCKED) { 

857 mm-»locked vm += len >> PAGE SHIFT; 

858 make pages present(addr, addr + len); 

859 } 

860 return addr; 

861. ] 


参数 addr 7g s e ERAN UE DERI E. len 则 为 区 间 的 长 度 。 前 面 我 们 已 经 看 到 
find_vma_intersection( ) 对 冲突 的 检查 ， 吕 是 不 知 读者 是 否 注意 到 ， 实 际 上 检查 的 只 是 新 区 间 的 高 端 ， 
对 于 其 低 端的 神 突 则 并 未 检 盒 。 例 如 ， 老 的 边界 是 香 恰 好 是 一 个 已 映射 区 间 的 终点 呢 ? 如 果 不 是 ， 那 
就 说 明 在 低 端 有 了 冲突 。 不 过 ， 对 于 低 端 的 冲突 是 允许 的 ， 解 决 的 方法 是 以 新 的 映射 为 准 ， 先 通过 
do munmap( ) 把 原 有 的 映射 解除 〈 见 803 行 )， 再 来 建立 新 的 映射 。 读 者 大 概要 问 了 ， 为 什么 对 新 区 间 
的 局 端 和 低 端 有 如 此 不 同 的 容忍 度 和 对 待 呢 ? 谈 者 最 好 先 想 一 想 ， 然 后 再 往 下 看 。 

以 及 说 过 ， 用 户 空间 的 顶端 是 进程 的 用 户 空 间 堆 栈 。 不 管 什么 进程 ， 在 那里 总 是 有 一 个 已 映射 区 
间 存 在 着 的 ， 所 以 find_vma_intersection( ) 中 的 find_vma( ) 其 实 不 会 返回 0， 因 为 至 少 用 于 堆栈 的 那个 
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区 间 总 是 存 丰 的。 当然， 在 堆栈 以 下 也 可 能 还 有 通过 mmap( ) 或 ioremap( ) 建 立 的 映射 区 间 。 所 以 ， 如 
果 新 区 间 的 高 端 有 冲突 ， 那 就 可 能 是 与 堆栈 的 冲突 ， 亩 低 疯 的 冲突 则 只 能 是 与 数据 段 的 冲突 。 所 以 ， 
对 十 低 端 可 以 让 进程 自己 对 可 能 的 错误 人 负责 ， 出 对 十 堆栈 可 就 不 能 采取 把 原 有 的 映射 解除 ， 男 行 建立 
新 的 映射 这 样 的 方法 了 。 

建立 新 的 映射 时 ， 先 看 看 是 否 可 以 跟 牙 有 的 区 问 合 并 ， 即 通过 扩展 避 有 区 间 来 覆盖 新 增 的 区 间 
(826~831 行 )。 如 果 不 行 束 得 另行 建 六 一 个 区 间 (838~852 行 )。 

最 后 ， 通 过 make_pages_present( )， 为 新 增 的 区 间 建 立 起 对 内 存 页 面 的 映射 。 其 代码 见 


mm/memory.c: 


[Sys. brk( ) > do. brk( ) > make pages. present( )] 


1210 /* 

1211 * Simplistic page force-in.. 

1212 */ 

1213 int make pages present (unsigned long addr, unsigned long end) 
1214. | 

1215 int write; 

1216 struct mm struct *mm = current-?mm; 

1217 struct vm_area_struct * vma; 

1218 

1219 vma = find_vma(mm, addr); 

1220 write = (vma->vm flags & VM WRITE) !- 0; 

1221 if (addr >= end) 

1222 BUG( ) ; 

1223 do { 

1224 if (handle mm fault (mm, vma, addr, write) < 0) 
1225 return 一 ] ; 

1226 addr += PAGE SIZE; 

1227 } while (addr < end); 

1228 return Q; 

1229 } 


这 里 所 用 的 方法 很 有 趣 ， 那 就 是 对 新 区 河中 的 每 SR RR. A, DÀ 
从 do_brk( ) 返 回 ,进而 从 sys_brk( ) 返 回 之 时 ， 这 些 抽 面 表 项 的 映射 是 怎样 的 ? 如 果 进 程 从 新 分 配 的 区 / 
间 中 读 ， 读 出 的 内 容 该 是 什么 ? 往 里 面 写 ， 情 况 义 会 怎样 ? 


2.13 系统 调用 mmap( ) 


一 个 进程 可 以 通过 系统 调用 mmap( ), 将 一 个 已 打开 文件 的 内 容 上 映射 到 它 的 用 户 空间 ， 其 用 户 界 和 有 
为 : 


mmap (void *start,size t length, int prot, int flags, int fd, off t offset) 


参数 £d 代表 着 一 个 已 打开 文件 ，offset 为 文件 中 的 起 点 ， 而 start 为 映射 到 用 户 空 间 中 的 起 始 地 址 ， 
178. 
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lenth 则 为 长 度 。 还 有 两 个 参数 prot A flags,， 前 者 用 于 对 所 映射 区 间 的 访问 模式 ， 如 可 泽 、 可 执行 等 等 ， 
后 者 则 用 于 其 他 控制 目的 。 从 应 用 程序 设计 的 角度 来 说 , 比 之 常规 的 文件 操作 ,如 read( )、write( ).Iseek( ) 
等 等 ， 将 文件 映射 到 用 户 空间 后 像 访问 内 存 一 样 地 访问 文件 显然 要 方便 得 多 (读者 不 妨 设想 一 下 对 数 
据 库 文件 的 访问 )。 

在 阅读 本 节 之 前 ， 读 者 应 先 看 下 前 一 节 sys_brk( ) 的 代码 和 有 关 说 明 ， 并 月 在 阅读 的 过 程 中 注意 
与 sys_brk( ) 互 相 参 照 比较 。 有 些 内 容 可 能 要 到 阅读 了 后 面 几 章 以 后 ， 特 别 是 “文件 系统 ”以 后 ， 上 由 回 
WOR IEA HEHE. 

在 2.4.0 版 的 内 核 中 实现 这 个 调用 的 函数 为 sys_mmap2( ), (Ase AA 
old_mmap( )， 这 两 个 函数 对 应 着 不 同 的 系统 调用 号 。 为 保持 对 老 版 本 的 兼容 ，2.4.0 版 中 仍 保留 老 的 系 
统 调用 与 和 old_mmap( )， 由 不 同 版 本 的 C 语言 库 程序 决定 采用 哪 一 个 系统 调用 号 。 二 者 的 代码 部 在 
arch/i386/kernel/sys_i386.c 中 : 








68 asmlinkage long sys_mmap2 (unsigned long addr, unsigned long len, 

69 unsigned long prot, unsigned long flags, 

70 unsigned long fd, unsigned long pgoff) 

71 { 

12 return do mmap2(addr, len, prot, flags, fd, pgoff); 

733. 

9] asmlinkage int old mmap(struct mmap arg struct *arg) 

92 { 

93 struct mmap_arg struct a; 

94 int err = -EFAULT; 

95 

96 if (copy from user(&a, arg, sizeof (a))) 

97 goto out; 

98 

99 err = -EINVAL; 

100 if (a.offset & "PAGE MASK) 

101 goto out; 

102 

103 err = do mmap2(a.addr, a. len, a.prot, a.flags, a. fd, 
a.offset >> PAGE SHIFT); 

104 out: 

105 return err; 

106 } 


JA, AIRE FERSKIR EAE RABE do_mmap2( )， 其 代码 在 同一 文件 中 : 


[sys mmap2( ) > do_mmap2( )] 


42 /* common code for old and new mmaps */ 

43 static inline long do mmap2( 

44 unsigned long addr, unsigned long len, 
45 unsigned long prot, unsigned long flags, 
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46 unsigned long fd, unsigned long pgoff) 
47 { 

48 int error = —EBADF; 

49 struct file * file = NULL; 

50 

51 flags &- "(MAP EXECUTABLE | MAP DENYWRITE) ; 
52 if (!(flags & MAP ANONYMOUS)) 1 

53 file = fget (fd); 

54 if (file) 

55 goto out; 

56 } 

57 

58 down (&current->mm->mmap_sem) : 

59 error = do mmap pgoff(file, addr, len, prot, flags, pgoff); 
60 up(&current-?mm-^mmap sem); 

61 

62 if (file) 

63 fput (file); 

64 out: 

65 return error; 

66  ] 


一 般 而 言 ， 系 统 调用 mmap( ) 将 已 打开 文件 映射 到 用 户 空间 。 但 是 有 个 例外 ， 那 就 是 可 以 在 调用 参 
数 flags 中 把 标志 位 MAP ANONYMOUS 设 成 1， 表 示 没 有 文件 ， 实 际 上 只 是 用 来 “ 圈 地 ”， 即 在 指定 
的 位 置 上 分 配 空间 。 除 此 之 外 ， 操 作 的 主体 就 是 do_mmap_pgoff( )。 

内 核 中 还 有 个 inline 函数 do_mmap( )， 是 供 内 核 自 己 用 的 ， 它 也 是 将 已 打开 文件 映射 到 当前 进 称 
的 用 户 空间 。 以 后 ， 在 阅读 系统 调用 sys execve( ) 的 代码 时 ， 在 函数 load_aout_binary( ) 中 可 以 看 刘 通 
过 do_mmap( ) 将 可 执行 程序 〈 二 进 制 代 码 ) 映射 到 当前 进程 的 用 户 空间 。 此 外 ，do_mmap( ) 还 用 来 创 
建 作 为 进程 间 通 信 手 段 的 “共享 内 存 区 ” 这 个 inline 函数 是 在 include/linux/mm.h 中 定义 的 : 


428 static inline unsigned long do mmap(struct file *file, unsigned long addr, 
429 unsigned long len, unsigned long prot, 

430 unsigned long flag, unsigned long offset) 

431 { 

432 unsigned long ret = -EINVAT; 

433 if ((offset + PAGE ALIGN(len)) < offset) 

434 goto oul; 

435 if (! (offset & "PAGE MASK)) 


436 ret - do mmap pgoff(file, addr, len, prot, flag, 
offset >> PAGE SHIFT); 


437 out: 
438 return ret; 
439 } 


5 do_mmap2( ) 作 一 比较 ， 就 可 发 现 一 者 基本 上 相同 ， 都 是 通过 do_mmap_pgoff( ) 完 成 操作 。 不 同 
的 只 是 do_mmap( ) 不 支持 MAP. ANONYMOUS; 另 一 方面 由 于 在 进入 do_mmap( ) 之 前 已 经 在 临淄 区 
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内 ， 所 以 也 个 髓 需要 通过 信号 量 操 作 down( ) 和 和 up( ) 加 以 保护 。 


efi aX do_mmap_pgoff( ) 的 代码 在 mm/mmap.c HP: 


[sys_mmap2( ) > do mmap2( ) > do_mmap_pgoff( )] 


188 


189 
190 
191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 
205 
206 
207 
208 
209 
210 
211 
212 
213 
214 
215 
216 
217 
218 
219 
220 
221 
222 
223 
224 
229 
226 
221 
228 


unsigned long do mmap pgoff (struct file * file, unsigned long addr, 
unsigned long len, 
unsigned long prot, unsigned long flags, unsigned long pgoff) 


struct mm struct * mm = current->mm; 
struct vm area struct ** vma; 

int correct wcount = 0; 

int error; 


if (file && (!file->f_op || !file-^f op-^mmap)) 
return -ENODEY; 


if ((len = PAGE ALIGN(len)) == 0) 
return addr; 


if (len > TASK SIZE || addr > TASK SIZE-len) 
return -EINVAL; 


/* offset overflow? */ 
if ((pgoff + (len >> PAGE SHIFT)) < pgoff) 
return -EINVAL; 


/* Too many mappings? */ 
if (mm-^map count > MAX MAP COUNT) 
return -ENOMEM; 


/* mlock MCL FUTURE? */ 
if {mm->def flags & VM LOCKED) { 
unsigned long locked - mm->locked vm << PAGE SHIFT; 
locked *- len; 
if (locked > current rlim[RLIMIT MEMLOCK]. rlim cur) 
return -EAGAIN; 
} 


/* Do simple checking here so the lower-level routines won i have 
* to. we assume access permissions have been handled by the open 
* of the memory object, so we don t do any here. 

*/ 
if (file {= NULL) { 
switch (flags & MAP TYPE) { 
case MAP SHARED: 
if ((prot & PROT WRITE) && !(file-^f mode & FMODE WRITE)) 
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229 return —EACCES; 
230 
231 /* Make sure we don’t allow writing to an append-only file. */ 
232 if (IS APPEND (file->f_dentry—>d_inode) && 
(file-^f mode & FMODE WRITE) ) 
233 return —EACCES ; 
234 
235 /* make sure there are no mandatory locks on the file. */ 
236 if (locks verify locked(file-^f dentry->d inode)) 
237 return -EAGAIN; 
238 
239 /* fall through */ 
240 case MAP PRIVATE: 
241 if (!(file-^f mode & FMODE READ)) 
242 return -EACCES; 
243 break; 
244 
245 default: 
246 return —EINVAL: 
247 | 
248 } 
249 


首先 对 文件 和 区 闻 两 方面 都 作 一 些 检 查 ， 包 括 起 始 地 址 与 长 度 、 已 经 映射 的 次 数 等 等 。 指 针 file 
F 0 表示 映射 的 是 具体 的 文件 (fi 不 是 MAP_ANONYMOUS )， 所 以 相应 file 结构 中 的 指针 f_op 必须 
指向 ^ file operations 数据 结构 ， 其 中 的 水 数 指针 mmap 又 必须 指向 基体 文件 系统 所 提供 的 mmap $e 
作 ( 详 风 第 5 章 “ 文 件 系统 ”)。 从 菜 种 意义 上 说 ，do_mmap( ) 和 do mmap2( ) 提 供 的 只 是 一 个 高 层 的 框 
抽 ， 低 层 的 文件 操作 是 由 具体 的 文件 系统 提供 的 。 

此 外 ， 还 于 对 文件 和 区 间 的 访问 权限 进行 检查 ， 二 者 必须 相符 。 读 者 可 以 在 阅读 了 第 5 章 以 后 回 
过 来 仔细 看 这 些 代 码 。 这 里 我 们 继续 往 下 和 看: 


[sys mmap2( ) > do mmap2( ) > do mmap. pgoff( )] 


250 /* Obtain the address to map to. we verify (or select) it and ensure 
251 * that it represents a valid section of the address space. 
252 */ 

253 if (flags & MAP FIXED) { 

254 if (addr & "PAGE MASK) 

255 return -EINVAL; 

256 | else { 

257 addr = get unmapped area(addr, len); 

258 if (!addr) 

259 return -ENOMEM; 

260 } 

261 
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调用 do_mmap_pgoff( ) 时 的 参数 基本 上 就 是 系统 调用 mmap( ) 的 参数 ， 如 果 参 数 flags 中 的 标志 位 
MAP. FIXED 为 0， 束 表示 指定 的 映 射 地 址 只 是 个 参考 值 ， 不 能 满足 时 可 以 由 内 核 给 分 配 一 个 。 所 以 ， 
就 通过 get_unmapped_area( ) 在 当前 进程 的 用 户 空间 中 分 配 一 个 起 始 地 址 。 其 代码 在 mm/mmap.c t: 





[sys mmap2( ) > do mmap2( ) > do_mmap_pgoff( ) > get_unmapped_area( )] 


374 /* Get an address range which is currently unmapped. 

375 * For mmap( ) without MAP FIXED and shmat( ) with addr=0. 

376 * Return value 0 means ENOMEM. 

377 */ 

378 #ifndef HAVE ARCH UNMAPPED AREA 

379 unsigned long get unmapped area(unsigned long addr, unsigned long len) 


380 { 

381 struct vm area struct * vmm; 

382 

383 if (len > TASK SIZE) 

384 return Q; 

385 if (!addr) 

386 addr = TASK UNMAPPED BASE; 

387 addr = PAGE ALIGN (addr); 

388 

389 for (vmm = find vma(current-^mm, addr); ; vmm = vmm->vm next) { 
390 /* At this point: (!vmm || addr < vmm—>vm end). */ 
391 if (TASK SIZE - len € addr) 

392 return 0; 

393 if (!vmm || addr + len <= vmm-^vm start) 

394 return addr; 

395 addr = vmm->vm end; 

396 } 

397  ] 

398 #endif 


读者 自行 阅读 这 上 段 程序 应 该 个 会 有 困难 。 常 数 TASK_UNMAPPED_BASE 是 在 
include.asm-i386/processor.h 中 定义 的 : 


263 /* This decides where the kerne] will search for a free chunk of vm 
264 * space during mmap’ s. 
265 */ 


266 ^ #define TASK UNMAPPED BASE (TASK SIZE / 3) 


也 就 是 说 ， 当 给 定 的 日 标 地 址 为 0 时 ， 内 核 从 《TASK_SIZE/3) 即 1GB 处 开始 向 上 在 当前 进程 的 
虚 存 空间 中 寻找 一 块 足以 容纳 给 定 长 度 的 区 间 。 而 当 给 定 的 目标 地 址 不 为 0 时 ， 则 从 给 定 的 地 址 开始 
a] EFEX. PRL find vma( ) 侍 当前 进程 已 经 映射 的 虚 存 空间 中 找到 第 个 满足 vma -> vm end 大 于 给 
定 地 址 的 区 间 。 如 果 找 不 到 这 么 一 个 区 间 ， 那 就 说 明 给 定 的 地 址 尚未 映射 ， 因 而 可 以 使 用 。 

至 此 ， 只 时 返回 的 地 址 非 0. addr 就 已 经 是 一 个 符合 各 种 要 求 的 虚 存 地 址 了 。 我 们 回 到 
do_mmap_pgoff( ) 中 继续 入 下 看 (mmAmmap.c ): 
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[sys mmap2( ) > do mmap2( ) > do_mmap_pgoff( )] 
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/* Determine the object being mapped and call the appropriate 
* specific mapper. the address has already been validated, but 
* not unmapped, but the maps are removed from the list. 

*/ 

vma = kmem cache alloc(vm area cachep, SLAB KERNEL); 

if (!vma) 
return -ENOMEM; 


vma-»vm mm = mm; 

vma-»vm start = addr; 

vma-»vm end = addr + len; 

vma—>vm_flags = vm_flags (prot, flags) | mm-^def flags: 


if (file) { 
VM ClearReadHint (vma) ; 
vma-?^vm raend = 0; 


if (file-^f mode & FMODE READ) 

vma-^vm flags |= VM MAYREAD | VM MAYWRITE : VM MAYEXEC: 
if (flags & MAP SHARED) { 

vma->vm flags |= VM SHARED | VM MAYSHARE; 


/* This looks strange, but when we don' t have the file open 

* for writing, we can demote the shared mapping to a simpler 
* private mapping. That also takes care of a security hole 
* with ptrace( ) writing to a shared mapping without write 
* permissions. 
* 
* 
* 


We leave the VM MAYSHARE bit on, just to get correct output 
from /proc/xxx/maps. 
*/ 
if (!(file-^f mode & FMODE WRITE)) 
vma-»vm flags &- "(VM MAYWRITE | VM SHARED); 
) 
} else { 
vma—>vm flags |= VM MAYREAD | VM MAYWRITE : VM MAYEXEC; 
if (flags & MAP SHARED) 
vma-»vm flags != VM SHARED | VM MAYSHARE; 
i 
vma-»vm page prot = protection_maplvma->vm_flags & OxOf]; 
vma-?vm ops - NULL; 
vma-2vm pgoff 二 pgoff; 
vma-»vm file = NULL: 
vma-?»vm private data = NULL; 


/* Clear old maps */ 
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308 error = ~ENOMEM; 

309 if (do munmap(mm, addr, len)) 

310 goto free vma; 

311 

312 /* Check against address space limit. */ 

313 if ((mm-^total vm << PAGE SHIFT) + len 

314 > current-^rlim[RLIMIT AS]. rlim cur) 

215 goto free vma; 

316 

317 /* Private writable mapping? Check memory availability. */ 
318 if ((vma->vm_flags & (VM SHARED | VM_WRITE)) == VM WRITE && 
319 '(flags & MAP NORESERVE) && 

320 'vm enough memory (len >> PAGE SHIFT)) 

321 goto free vma; 

322 


f^ X8 SH DC EAA vm. area. struct 数据 结构 , 所 以 通过 kmem, cache, alloc( ) 为 待 映射 的 区 间 分 
配 一 个 ， 并 加 以 设置 。 我 们 不 妨 与 前 一 节 中 do brk( ) 的 代 但 作 一 比较 ， 在 孝 里 只 是 在 新 增 的 区 间 不 能 
与 已 有 的 区 间 合 并 时 , 才 分 配 了 一 个 vm area, struct 数据 结构 , 向 这 里 却 是 无 条 件 的 。 以 前 我 们 提 到 过 ， 
属性 不 同 的 区 段 不 能 共存 丁 同 一 逻辑 区 间 中 ， 而 映射 到 一 个 特定 的 文件 也 是 一 种 属性 ， 所 以 总 是 要 为 
之 单独 建立 个 迪 辑 区 间 。 

如 果 调 用 do_mmap_pgoff( ) 时 的 file 结构 指针 为 0， 则 目的 仅 在 于 创建 点 存 区 间 ， 或 者 说 仅 在 于 建 
立 从 物理 空 间 到 虚 存 区 间 的 映射 。 而 如 果 日 的 在 于 建立 从 文件 到 虚 存 区 间 的 映射 ， 那 就 要 把 为 文件 设 
置 的 访问 权限 考虑 进去 ( 见 275 一 296 行 )。 

注意 代码 中 的 303 行将 参数 pgoff 设置 到 vm, area. struct 数据 结构 中 的 vm_pgoff 字段 。 这 个 参数 代 
表 着 所 映射 内 容 在 文件 中 的 起 点 。 有 了 这 个 起 点 ， 发 生 缺 页 异常 时 就 可 以 根据 虚 存 地 址 计算 出 相应 页 
而 华文 件 中 的 位 置 。 所 以 ， 当 世间 映射 时 ， 对 于 文件 映射 页 面 不 需要 像 普 通 换 入 / 换 出 页 面 那样 在 页 
血 衣 项 中 指明 其 去 问 。 另 一 方面 ， 这 也 说 明了 为 什么 这 样 的 区 间 必 须 是 独立 的 。 

全 此 ， 代 才 痢 我 们 所 需 虚 人 存 区 间 的 数据 结构 已 经 创建 了 ， 只 是 尚未 插入 代表 当前 进程 虚 存 空间 的 
mm struct 结构 中 。 可 是 ， 在 茶 些 条 件 下 却 还 不 得 不 将 它 撤销 。 为 什么 昵 ? 这 里 调用 了 T ERAX 
do munmap( )。 它 检查 日 标 地 址 在 当前 进程 的 虚 存 空间 是 任 已 经 在 使 用 ， 如 果 已 经 在 使 用 就 要 将 老 的 
映射 撤销 。 要 是 这 个 操作 失败 ， 邓 当然 不 能 重复 映射 则 一 个 里 标 地 址 ， 所 以 就 得 转移 到 free_vma， 把 
已 经 分 配 的 vm area struct 数据 结构 撤销 。 我 们 已 经 在 前 一 节 中 读 过 do_munmap( ) 的 代 合 。 也 许 读者 
会 感到 奇怪 ， 这 个 区 间 不 是 在 前 面 调用 get_unmapped_area( ) 找 到 的 吗 ? 怎么 会 原来 就 已 映射 呢 ? 加 过 
头 去 注意 看 一 下 就 吕 知 道 ， 那 只 是 当 调 用 参数 flags 中 的 标志 位 MAP_FIXED X 0 时， 而 尖 该 标志 位 为 
1 时 则 尚未 对 此 加 以 检查 。 除 此 之 外 , 还 有 两 个 情况 也 会 导致 撤销 已经 分 配 的 vm. area. struct 数据 结构 : 
一个 契 如 昌 汉 前 进程 对 虚 存 空间 的 使 用 超出 了 为 其 设置 的 上 限 ， 另 -一 个 是 在 要 求 建立 由 当 亲 进程 专用 
的 可 与 区间， 而 物理 页 和 面 的 数量 已 经 《和 暂时) 不是。 

读者 也 许 还 柴 问 : 为 什么 不 把 对 所 有 条 件 的 检验 放 在 分 配 vm. area, struct 数据 结构 之 前 呢 ? 问题 在 
十 ， 在 通过 kmed_cache_alloc( ) 分 配 vm. area, struct 数据 结构 的 过 程 中 ， 有 可 能 会 发 生 供 这 种 数据 结构 
专用 的 slab 己 经 用 完 ， 向 不 得 不 分 配 更 多 物理 页 面 的 情 此 。 测 分 本 物理 页 面 的 过 程 ， 则 义 有 可 能 因 一 
时 不 能 满足 要 求 而 只 好 先 调 度 别 的 进程 运行 。 这 样 ， 由 十 可 能 已 经 有 别 的 进程 或 线程 ， 特 别 是 由 本 进 
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Fe clone( ) 出 来 的 线程 《 见 第 4 章 〉 运 行 过 了 ， 就 不 能 排除 这 些 条 件 已 经 改变 的 可 能 。 所 以 ， 读 者 在 内 

核 中 常常 可 以 看 到 先 分 配 某 项 资源 ， 然 后 检测 条 件 ， 如 果 条 件 不 符 再 将 资源 释放 〔 而 不 是 先 检 测 条 件 ， 

后 分 配 资源 〉 的 情景 。 关 键 就 在 于 分 配 资源 的 过 程 中 是 否 有 可 能 发 生 调度 ， 以 及 其 他 进程 或 线程 的 运 

行 有 人 否 可 能 改变 这 些 条 件 。 以 这 里 的 第 三 个 条 件 为 例 ， 如 果 发 生 调度 ， 那 就 明显 是 可 能 改变 的 。 
继续 往 下 看 do mmap pgoff( ) 的 代码 《mm/mmap.c): 


[sys_mmap2( ) > do mmap2( ) > do_mmap_pgoff( )] 


323 if (file) { 

324 if (vma->vm flags & VM DENYWRITE) { 
325 error - deny write access(filo); 
326 if (error) 

321 goto free vma; 

328 correct wcount - 1; 

329 ] 

330 i vma—>vm_file = file; 

331 get_file(file); 

332 error = file->f_op~>mmap(file, vma); 
333 if (error) 

334 goto unmap_and_free vma; 

335 } else if (flags & MAP SHARED) { 

336 error = shmem zero setup (vma) ; 

337 if (error) 

338 goto free vma; 

339 } 

340 

341 /* Can addr have changed?? 

342 * 

343 * Answer: Yes, several device drivers can do it in their 
344 * f_op—>mmap method. -DaveM 
345 */ 

346 flags = vma—>vm flags; 

347 addr = vma-^vm start; 

348 

349 insert vm struct (mm, vma}; 

350 if (correct wcount) 

351 atomic inc(&file-^f dentry-^d inode-^i writecount); 
352 

353 mm->total_ vm += len >> PAGE SHIFT; 

354 if (flags & VM_LOCKED) { 

355 mm-^locked vm += len >> PAGE SHIFT; 
356 make pages present(addr, addr + len); 
357 } 

358 return addr; 

359 

360 unmap and free vma: 

361 if (correct wcount) 
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362 atomic_ine (&file->f_dentry—>d_inode->i_writecount) ; 
363 vma-»vm file = NULL; 

364 fput (file); 

365 /* Undo any partial mapping done by a device driver. */ 
366 flush cache range(mm, vma-?vm start, vma-^vm end); 

367 zap page range(mm, vma->vm_start, vma->vm_end - vma->vm start); 
368 flush tlb range(mm, vma-^vm start, vma->vm_end); 

369 free_vma: 

370 kmem cache free(vm area cachep, vma); 

37] return error; 

372 j 


如 果 要 建 妆 的 是 从 文件 到 虚 存 区 间 的 映射 ， 而 在 调用 do mmap( ) 时 的 参数 flags 中 的 
MAP DENYWRITE 标志 位 为 1 (这 个 标志 位 在 前 面 273 行 引 用 的 宏 操作 vm_flags( ) 中 转换 成 
VM_DENYWRITE), 那 就 表 修 不 允许 通过 常规 的 文件 操作 访问 该 文件 ,所 以 要 调用 deny_write_access( ) 
排斥 常规 的 文件 操作 ， 详 见 “ 文 件 系 统 ” - 章 中 的 有 关内 容 。 至 于 getfil( )， 其 作用 只 是 递增 file 结 
构 中 的 共享 计数 。 | 

我 们 在 这 里 暂 不 关心 为 共享 内 存 区 .而 建立 的 有 映射， 所 以 跳 过 335—339 行 ， 将 来 在 讲 到 共享 内 存 区 
时 ， 还 要 回 过 来 看 shmem_zero_setup( ) 的 代码 。 

每 种 文件 系统 都 有 个 file operations 数据 结构 ， 其 中 的 函数 指针 mmap 提供 了 用 来 建立 从 该 类 文件 
到 虚 存 区 间 的 映射 的 操作 。 那 么 ， 具 体 到 Linux 的 Ext2 文件 系统 ， 这 个 函数 是 什么 呢 ? RIKA Ext2 
文件 系统 的 file operations 数据 结构 (fs/ext2/file.c): 


100 struct file_operations ext2 file operations = { 


= 0*4 8 # #  «@ 


当 打开 一 个 文件 时 ,如 果 所 打开 的 文件 在 一 个 Ext2 文件 系统 中 , 内 核 就 会 将 file 结构 中 的 指针 fop 
设置 成 指向 这 个 数据 结构 ， 所 以 上 面 332 行 的 file->f_op->mmap 就 指 m) generic_file_mmap( )。 x pA] 
数 的 代码 在 mm/filemap.c 中 : 


[sys mmap2( ) > do_mmap2( ) > do_mmap_pgoff( ) > generic_file_mmap( )] 


1705 /* This is used for a general mmap of a disk file */ 

1706 

1707 int generic_file_mmap (struct file * file, struct vm area struct * vma) 
1708 | 


1709 struct vm_operations struct * ops; 

1710 struct inode *inode = file->f_dentry—>d_inode; 

1711 

1712 ops = &file_private_mmap; 

1713 if ((vma-^vm flags & VM SHARED) && (vma->vm flags & VM MAYWRITE)) { 
1714 if (linode-^i mapping->a ops->writepage) 
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1715 return -EINVAL; 

1716 ops = &file shared mmap; 

1717 } 

1718 if (linodei sb {| !S_ISREG(inode~>i_mode) ) 
1719 return -EACCES; 

1720 if (tinode-^i mapping-^a ops-^readpage) 
1721 return -ENOEXEC; 

1722 UPDATE ATIME (inode) ; 

1723 vma->vm ops = ops; 

1724 return 0; 

1725} 


这 个 函数 很 简单 ， 实 质 性 的 操作 就 是 1723 行将 虚 存 区 间 控 制 结构 中 的 指针 vm. ops 设置 成 ops: 
至 于 ops， 则 根据 映射 为 专 有 或 共享 而 分 别 指向 数据 结构 file_private_mmap & file shared. mmap. XH 
个 结构 均 定义 于 mm/filemap.c: 


1686 /* 

1687 * Shared mappings need to be able to do the right thing at 
1688 * close/unmap/sync. They will also use the private file as 
1689 * backing-store for swapping. . 

1690 */ 

1691 static struct vm operations struct file shared mmap = | 
1692 nopage: filemap nopage, 

1693 Y: 

1694 

1695 /* 

1696 * Private mappings just need to be able to load in the map. 
1697 * 

1698 * (This is actually used for shared mappings as well, if we 
1699 * know they can’t ever get write permissions..) 

1700 */ 

1701 static struct vm operations struct file private mmap - { 
1702 nopage: filemap nopage, 

1703 } 


数据 结构 的 初始 化 也 是 eco 对 C 语言 所 作 改 进 之 -。 这 里 表示 具体 vm. operations struct 结构 中 除 
nopage 以 外 ， 所 有 成 分 的 初始 值 均 为 0 或 NULL， 而 nopage 的 初始 值 则 为 filemap. nopage. ALEZ F, 
在 老 版 本 中 则 必须 写成 NULL, NULL, filemap_nopage}， 孝 样 ， 一 来 麻烦 ， 一 来 结构 中 各 字段 与 其 初始 
值 的 对 应 关系 也 不 直观 。 

两 个 结构 其 实 是 一 样 的， 都 只 是 为 缺 页 异常 提供 了 nopage 操作 。 此 外 ， 在 generic file mmap( ) 中 
还 检验 了 用 于 页 面 读 / 写 的 函数 是 否 存在 〈 见 1714 和 1720 行 )。 这 两 个 函数 应 该 由 文件 的 inode 数据 
结构 间接 地 提供 。 在 inode 结构 中 有 个 指针 i_mapping， 它 指向 一 个 address_space 数据 结构 ， 读 者 应 该 
加 到 “物理 页 面 的 使 用 和 周转 ”… 节 中 看 -一 下 它 的 定义 。 我 们 这 里 关心 的 戌 address. space 结构 中 的 指 
针 a_ops， 它 指向 一 个 address_space_operations 数据 结构 。 不 同 的 文件 系统 (页 面 交 换 设备 可 以 看 作 龙 
一 种 特殊 的 文件 系统 》 有 不 同 的 address space operations 结构 。 对 于 Ext2 文件 系统 是 ext2_aops， 定 义 
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F fsext2/inode.c !!: 


669 struct address space operations ext2 aops = | 
670 readpage: ext2 readpage, 

611 writepage: ext2 writepage, 

672 sync. page: block sync page, 

673 prepare write: ext2 prepare write, 

674 commit write: generic commit write, 

675 bmap: ext2 bmap 

676  ]; 


这 个 数据 结构 提供 了 用 来 读 / 写 ext2 文件 页 面 的 函数 ext2 readpage( ) 和 ext2_writepage( ). 这些 有 
大 的 数据 结构 利 指针 也 是 在 打开 文件 时 设置 好 了 的 。 
完成 了 这 些 检查 和 处 理 ， 把 新 建立 的 vm, area, struct 结构 插入 到 当前 进程 的 mm. struct 结构 中 ， 就 
基本 完成 了 do_mmap_pgoff( ) 的 操作 ， 仅 在 要 求 对 区 间 加 锁 时 才 调用 make_pages_present( )， 建 立 起 初 
始 的 奥 面 映射 ， 这 个 函数 的 代码 已 经 在 前 一 节 中 看 到 过 了 。 
读者 也 许 感到 困 感 ， 在 文件 与 虚 存 区 间 之 间 建 立 映射 难道 就 这 么 简单 ?而且 我 们 根本 就 没有 看 到 
页 面 映 射 的 建立 ! 其 实 ， 具 体 的 映射 是 非常 动态 、 经 常 在 变 的。 所 谓 义 件 与 虚 存 区 间 之 间 的 映射 包含 
着 两 个 环节 ，-… 是 物理 页 面 与 文件 映 象 之 间 的 换 入 / 换 出 ，-… 是 物理 页 面 与 虚 存 页 面 之 间 的 映射 。 这 
二 者 都 是 动态 的 。 所 以 ， 重 要 的 并 不 是 建立 起 一 个 特定 的 映射 ， 而 是 建立 起 一 套 机 制 ， 使 得 一 旦 需要 
时 就 可 以 根据 当时 的 具体 情况 建立 起 新 的 映射 。 另 一 方面 ， 在 计算 机 技术 中 有 - -个 称 为 “ lazy 
computation ”的 概念 ， 就 是 说 有 些 为 将 来 作 某 种 准备 而 进行 的 操作 (计算) 可 能 并 无 必要 ， 所 以 应 该 
推迟 到 真正 需要 时 才 进 行 。 这 是 因为 实际 运行 中 的 情况 千变万化 ， 有 时 候 花 了 老大 的 劲 才 完 成 了 准备 ， 
实际 上 却 根本 没有 用 到 或 者 只 用 到 了 很 小 一 部 分 ， 从 而 造成 了 浪费 。 就 以 这 里 的 文件 映射 来 说 ， 也 许 
映射 了 100 个 页 面 ， 而 实际 上 在 相当 长 的 时 间 里 只 用 到 了 其 中 的 一 个 页 面 ， 而 映射 99 个 页 面 的 开销 却 
是 不 能 忽略 不 计 的 。 何 况 ， 攻 期 不 用 的 页 面 还 得 费劲 把 它们 换 出 哩 。 考 虚 到 这 些 因素 ， 还 不 如 到 真正 
需要 用 到 一 个 页 面 时 再 来 建立 该 页 面 的 映射 ， 用 A 到 几 个 页 面 就 映射 几 个 页 而。 当然 ， 那 样 很 可 能 会 因 
为 分 散 处 理 而 使 具体 映射 每 一 个 负面 的 开销 增加 。 所 以 这 里 有 个 利 刺 权衡 的 问题 ， 具 体 的 次 定 往往 要 
建立 在 统计 数据 的 基础 上 。 这 里 正 是 运用 了 这 个 概念 ， 把 具体 页 而 的 映射 推迟 到 真 止 需要 的 时 候 才 进 
行 。 具 体 地 ， 就 是 为 映射 的 建立 、 物 理 抽 和 面 的 换 入 和 换 出 〈 以 及 映射 的 拆除 》 分 别 准 备 … 些 阴 数 ， 这 
M filemap_nopage( ). ext2_readpage( ) 以 及 ext2_writepage( ). 
那么 ， 什 么 时 候 ， 册 谁 来 调用 这 些 函 数 呢 ? 
d) 首先 ， 当 这 个 区 闻 中 的 一 个 页 面 首次 受到 访问 时 ， 会 由 于 丰 耐 无 映射 而 发 生 缺 页 异常 ， 相 应 
的 异常 处 理 称 序 为 do_no_page( )。 对 于 Ext2 文件 系统 ，do_no_page( ) 会 通过 ext2 readpage( ) 
分 配 一 个 衬 朵 内 存 页 而 并 从 文件 读 入 相应 的 页 面 ， 然 后 建立 起 映射 。 
(2) 建立 起 映射 以 后 ， 对 负面 的 写 操作 使 页 面 安 “ 脏 ”， 但 是 页 面 的 内 容 并 不 立即 写 回 文件 中 ， 
而 由 内 核 线程 bdflush( ) 周 期 性 运行 时 通过 page_launder( ) 问 接地 调用 ext2_writepage( )， 将 页 
面 的 内 容 写 入 文件 。 如 果 和 负面 很 长 时 间 没 有 受到 访问 ， 则 页 面 会 耗 尽 它 的 寿命 ， 从 出 在 一 次 
try_to_swap_out( ) 中 被 解除 映射 而 转 入 不 活路 状态。 如 果 页 面 是 “ 脏 ” 的 ， 则 也 会 在 
page launder( ) 中 调用 ext2_writepage( )。 我 们 在 try_to_swap_out( ) 的 代 公 中 曾 看 到 ， 对 用 十 
文件 映射 的 页 而 与 普通 的 换 入 / 换 出 页 耐 有 不 同 的 处 埋 。 对 于 前 者 是 解除 页 面 映射 ， 拒 页面 
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表 项 设置 成 0; 而 对 后 者 是 断 开 页 耐 映射， 使 负面 表 项 指 问 般 上 页面 。 
解除 了 映射 的 页 面 在 再 次 受到 访问 时 义 会 发 生 缺 页 异常 ， 仍 旧 因 负面 碟 映 射 而 进入 
do_no_page( )， 而 不 像 换 入 / S811 DAKE REA do_swap_page( )。 


我 们 把 这 些 情景 留 给 读者 作为 “家 庭 作 业 ”。 


BE mmap( ) 以 外 ，Linux 内 核 还 提供 了 几 个 与 之 有 关 的 系统 调用 ， 作 为 对 mmap ) 的 补充 。 限 于 篇 
幅 ， 我 们 只 把 它们 列 出 十 下 有 兴趣 或 需要 的 读者 可 自行 议 读 这 些 函 数 的 源 代码 。 


munmap(void *start, size_t length) 

解除 由 mmap( ) 所 建立 的 文件 映射 。 

mremap(void *old_address, size_t old_size, size_t new_size, unsigned long flags) 

这 是 Linux 所 特有 的 ， 用 来 扩大 或 缩小 已 经 映射 的 一 块 空间 。 

msync(const void *start, size t length, int flags) 

把 一 个 打开 的 文件 映射 到 进程 的 虚 存 空间 并 进行 读 写 之 后 ， 可 以 用 msyne ( ) 将 从 地 址 start 7T 
始 的 length 个 字 节 “ 冲 刷 ” 到 实际 的 文件 中 ， 使 得 文件 的 内 容 与 内 存 中 的 内 容 一 禾 。 参 数 flag 
中 有 三 个 标志 位 ， 分 别 为 MS_SYNC、MS_ASYNS 和 MS_INVALIDATE. MS, SYNC 表示 冲 
刷 立 刻 进 行 ， 并 且 系 统 调用 应 该 等 冲刷 完成 时 才 返 回 。MS_ASYNC 则 表示 冲刷 可 以 异步 地 完 
成 ， 系 统 调用 应 立即 返回 ， 内 核 可 以 在 适当 的 时 机 进行 冲刷 。 而 MS_INVALIDATE, MEA 
同一 文件 被 多 次 (由 多 个 进程 ) 映射 的 情况 而 设置 的 ， 表 示 同 一 文件 的 其 他 映 象 应 被 视 作 无 效 
而 应 加 以 刷新 。 

mlock(const void *addr, size_t len) 

虚 存 空间 被 映射 到 物理 空间 以 后 ， 一 般 而 言 是 由 内 核 运 用 LRU 算法 来 决定 页 面 的 换 入 或 换 出 
的 。 但 有 时 候 某 些 进 程 因 运 行 效率 的 考虑 需要 将 某 些 页 面 “锁定 ”在 内 存 中 ， 这 时 候 就 可 以 用 
mlock( ) 将 虚 存 中 从 addr 开始 的 len 个 字 节 ， 实 际 上 是 这 些 字 节 所 在 的 页 面 锁定 在 内 存 中 ， 不 
允许 换 出 。 

mprotect (const void *addr, size_t len, int prot) 


最 后 ，mprotect( ) 用 米 改 变 一 段 虚 存 空间 的 保护 属性 。 
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我 们 假定 本 书 的 读者 已 经 具备 了 计算 机 系统 结构 方面 的 研 础 知识 ， 所 以 本 章 对 中 断 以 及 异常 
Cexception ) 处 理 的 原理 和 机 制 不 作 深入 的 介绍 。 缺 乏 这 方面 基础 的 读者 不 妨 先 阅 读 - -些微 处 理 器 方 
面 的 有 关 材 料 。 不 过 ， 我 们 也 并 不 要 求 读 者 对 相关 内 容 已 经 具备 了 很 深入 的 理解 。 事 实 上， 随 着 我 们 
的 介绍 和 分 析 ， 特 别 是 随 着 各 个 情景 的 发 展 和 代码 的 阅读 ， 读者 自 会 逐步 地 加 深 理 解 。 

先 简 时 提 一 下 ， 中 断 有 两 种 ，- -种 是 由 CPU 外 部 产生 的 ， 另 一 种 是 由 CPU 本 身 在 执行 程序 的 过 
程 中 产生 的 。 

外 部 中 断 ， 就 是 通常 所 讲 的 “中 断 ”(interrupb。 对 于 执行 中 的 软件 来 说 ， 这 种 中 断 的 发 生 完 全 是 
“ 弄 步 ”的 ， 根 本 无 法 预测 此 类 中 断 会 在 什么 时 候 发 生 。 因 此 ，CPHU (或 者 软件 ) 对 外 部 中 断 的 响应 
完全 是 被 动 的 。 不 过 ， 软 件 可 以 通过 “关中 有 断 ” 指 令 关闭 对 中 断 的 响应 ， 把 它 “反映 情况 ”的 途径 拘 
断 ， 这 样 就 可 以 眼 不 见 心 不 烦 了 〔〈 这 里 不 考虑 “不 可 屏 革 中断 当 。 

由 软件 产生 的 中 断 则 不 同 ， 它 是 由 专 设 的 指令 ， 如 X86 中 的 “INT n". 在 程序 小 有 意 地 产生 的 ， 
PUES, “UE” B. HH CPU 执行 了 -条 INT 指令 ， 就 知道 在 开始 执行 下 一 条 指令 之 前 一 定 
要 先进 入 中 断 服 务 程 序 。 这 种 主动 的 中 断 称 为 “陷阱 ”(trap)。 

此 外 ， 还 有 一 种 与 中 断 相 似 的 机 制 称 为 “异常 ” (exception)， 一 般 也 是 异步 的 ， 多 半 由 于 “不 小 
心 ” 犯 了 规 才 发 生 。 例 如 ， 当 你 在 程序 中 发 出 一 条 除法 指令 DIV， 而 除数 为 0 时 ， 就 会 发 生 一 次 异常 。 
这 多 半 是 因为 不 小 心 ， 而 不 是 故意 的 ， 所 以 也 是 被 动 的 。 当 然 ， 也 不 排除 收 意 的 可 能 性 。 我 们 在 第 2 
草 中 看 到 过 通过 页 而 异常 扩展 堆栈 区 间 的 情景 ， 那 就 是 故意 安排 的 。 

这 样 ， 一 共 就 有 三 种 类 似 的 机 制 ， 即 中 断 、 陷 阱 以 及 异常 。 

但 二， 不 管 是 外 部 产后 的 中 断 还 是 陷阱 ， 或 者 异常 ， 不 管 是 无 意 的 、 被 动 的 ， 还 是 故意 的 、 主 动 
的 ，CPU 的 响应 过 程 却 基 本 上 - - 致 。 这 就 是 ， 在 执行 完 当前 指令 以 后 ， 或 者 在 拟 行 当前 指令 的 中 途 ， 
就 根据 中 上 断 源 所 提供 的 “中 和 断 向 量 ”， 在 内 存 中 找到 相应 的 服务 程序 入 口 几 调用 该 服务 程序 。 外 部 中 断 
的 向 量 是 由 软件 或 硬件 设置 好 了 的 ， 陷 阱 的 向 量 是 在 “ 自 陷 ” 指 令 中 发 出 的 〈INT n 中 的 n)， 而 各 种 
C8 A Te] JU Fe CPU 的 便 件 结构 中 预先 规定 好 的 。 这 样 ， 这 些 不 同 的 情况 就 因 中 汤 向 量 的 不 同 而 互相 
区 分 开 来 了 。 央 此 ， 在 实践 中 常常 将 这 些 不 同 的 情况 作为 - -种 统一 的 模式 加 以 考虑 和 实现 ， ra His 
统称 为 “小 断 ” 至 十 系统 调用 ， 一 般 都 是 通过 INT 指令 实现 的 ， 所 以 也 与 中 断 密 切 相 关 。 

本 章 前 一 部 分 内 容 讲 中 断 ， 包 括 中 断 的 硬件 支持 、 软件 处 埋 以 及 中 断 响应 和 服务 的 过 程 ， 后 .部 
分 则 介绍 系统 调用 的 有 关内 容 。 





. 797 ， 


Linux 内 核 源 代码 情景 分 析 (上 斯) 


3.1 X86 CPU 对 中 断 的 硬件 支持 


本 节 不 讨论 严格 意义 上 的 中 断 响应 全 过 程 〈“ 比 如 说 ， 怎 样 获得 中 断 向量 )， 而 是 着 重 讨 论 CPU 在 
响应 中 断 时 ， 即 在 得 到 了 中 断 向 量 以 后 ， 怎 样 进入 相应 的 中 断 服务 程序 的 过 程 。 这 是 从 操作 系统 的 角 
度 需 要 关心 的 问题 。Intel X86 CPU 支持 256 个 不 同 的 中 断 向 量 , 这 一 点 全 今 未 变 。 可 是 , 早期 X86 CPU 
的 中 断 响 应 机 制 是 非常 原始 、 非 常 简 单 的 。 在 实地 址 模式 中 ，CPU 把 内 存 中 从 0 开始 的 LK FEA 
一 个 中 断 向 量 表 。 表 中 的 每 个 表 项 占 四 个 字 节 ， 由 两 个 字 节 的 段 地 址 和 两 个 字 节 的 位 移 组 成 。 这 样 构 
成 的 地 址 便 是 相应 中 断 服务 程序 的 入 山地 址 。 这 与 16 位 实地 址 模式 中 的 寻 址 方式 也 是 一 致 的 。 但 钙 ， 
在 这 样 的 机 制 上 是 不 能 构筑 现代 意义 的 操作 系统 的 ， 即 使 把 16 位 寻 址 改 成 32 位 寻 址 ， 即 使 实现 了 负 
式 存储 管理 ， 也 还 是 无 济 于 事 。 原 因 在 于 ， 这 个 机 制 中 并 没有 提供 空间 切换 ， 或 者 说 运行 模式 切换 的 
手段 ,为 了 理解 这 :点 ,让 我 们 来 看 看 其 他 的 CPU 是 怎么 做 的 。 读 者 也 许 知 道 , 早期 的 UNIX 是 在 PDP-11 
上 实现 的 .PDP-11 的 CPU 中 有 一 个 与 X86 的 FLAGS 寄存 器 相 类 似 的 控制 状态 寄存 器 , 称 为 PSBW 《外 
理 器 状态 字 )。PSW 中 有 一 个 位 段 决定 了 CPU 的 当前 运行 优先 级 利 模式 〈 系 统 或 用 户 )。 在 用 户 程序 中 
是 不 能 道 过 直接 修改 PSW 来 达到 调 高 优先 级 的 目的 的 。 在 PDP-11 的 中 断 向 量 表 中 ， 每 个 表 项 由 两 部 
分 组 成 ， 一 部 分 是 相应 中 断 服务 程序 的 入 口 地 址 ， 另 -部 分 就 是 当 CPU 进入 中 断 服 务 程 序 后 的 PSW。 
当然 ， 中 断 向 量 表 的 内 容 只 有 当 CPU 处 于 系统 模式 时 才能 改变 。 当 中 断 发 生 时 ，CPU Aqui 
PSW 装 入 其 控制 状态 寄存 器 ， 而 将 中 断 服务 程序 的 入 量 地 址 装 入 程序 计数 嚣 ， 从 沿 达 到 既 转 入 了 相应 
的 中 断 服 务 程 序 ， 又 从 -种 运行 模式 切换 到 女 ， 种 运行 模式 〈 或 优先 级 别 ) 的 双重 日 的 。 至 于 原来 的 
PSW 则 随 中 断 返 加 地 址 一 起 被 压 入 堆栈 , 以便 CPU 从 中 断 服务 程序 返回 时 能 回 到 原来 的 运行 模式 。 这 
样 ， 就 很 自然 地 实现 了 运行 状态 的 切换 。CPU 平时 处 于 用 户 状态 ， 雹 论 是 因为 外 部 中 断 还 是 系统 调用 
(由 软件 产生 的 中 断 )， 或 是 某 种 异常 ， 都 会 通过 中 断 向 莉 表 进入 系统 状态 ， 执 行 完 中 断 服 务 程序 后 返 
回 时 便 又 恢复 原状 ， 回 到 用 户 状 态 。 相 比 之 下 ， 我 们 可 以 清楚 地 看 人 到，X86 实地 址 模式 下 的 中 上 断 响 应 
过 程 所 缺少 的 就 是 类 似 于 PDP-11 对 PSW 的 处 理 。 

因此 ，Intel 在 实现 保护 模式 对， 对 CPU 的 中 断 响 应 机 制作 了 大 幅度 的 修改 。 

首先 , 中 断 向 量 表 中 的 表 项 从 单纯 的 入 口 地 址 改 成 了 类 似 于 PSW 加 入 口 地 址 并 且 更 为 复杂 的 描述 
项 ， 称 为 “ 门 ”(gate)， 意 思 是 当中 断 发 生 时 必须 先 通过 这 些 门 ， 才 能 进入 相应 的 服务 程序 。 但 古 ， 这 
样 的 请 并 林 光 是 为 中 断 而 设 的 ， 只 要 想 切 换 CPU 的 运行 状态 ， 即 其 优先 级 别 ， 例 如 从 用 六 的 3 级 进入 
系统 的 0 级 , 就 都 要 通过 :道门 。 出 从 用 户 态 进入 系统 态 的 途径 也 并 不 上 只 限 寺 中 断 〈 或 异常 ， 或 陷阱 》， 
还 可 以 通过 子 程序 调用 指令 CALL 和 转移 指令 IMP 来 达到 日 的 。 而 及， 当中 断 发 生 时 不 但 可 以 切换 
CPU 的 运行 状态 并 转 入 中 断 服务 程 序 ， 还 可 以 安排 进行 一 次 任务 切换 《所 谓 “ 上 下 文 切 换 ”， 工 即 切 
换 到 另 一 个 进程 。 因 此 在 操作 系统 中 可 以 设立 一 个 “中 断 服务 进程 〈 任 务 )”， 备 当中 断 发 生 时 惑 切换 
到 该 进程 。 

按 不 同 的 用 途 和 和 日 的 ，CPU 中 -共有 四 种 门 ， 即 任务 门 Ctask gate) HET] Cinterupt gate)、 陷 
UL] Ctrap gate》 以 及 调用 门 (call gate)。 其 中 除 任 务 门 外 其 他 三 种 门 的 结构 基本 相同 ， 不 过 调用 门 并 
不 是 与 中 断 向 量 表 相 联系 的 。 

先 看 任务 门 ， 其 大 小 为 64 位 ， 结 构 如 图 3.1 Prose 
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3.1 任务 门 结构 图 


TSS BOIS HIE HH MER i eats CS. DS 等 相似 ， 通 过 GDT 或 LDT KRFA “RAB” |t 
-种 ， 称 为 “任务 状态 段 ”(task_state segment) TSS. TSS 实际 上 是 一 个 用 来 保存 任务 运行 “现场 ”的 
数据 纺 构 ， 其 中 包括 CPU 中 所 有 与 具体 进程 有 关 的 寄存 器 的 内 容 〈 包 含 页 面目 隶 指 针 CR3)， 还 包括 
了 三 个 扒 栈 指 针 。 中 断 发 生 时 ，CPU 在 中 断 问 量 表 中 找到 相应 的 表 项 。 如 果 此 表 项 起 ”个 任务 门 ， 并 
日 通过 了 优先 级 别 的 检查 ，CPU 就 会 将 当前 任务 的 运行 现场 保存 在 相应 的 TSS 中 ， 并 将 任务 门 所 指 癌 
的 TSS 作为 当前 任务 ， 将 其 内 容 装 入 CPU 中 的 各 个 寄存 器 ， 从 而 完成 了 一 次 任务 的 切换 。 为 此 目的 ， 
CPU 中 义 增 设 了 个 “任务 寄存 器 ”TR， 用 来 指向 当前 任务 的 TSS。 人 在 Linux 内 核 中 ， 一 个 什 务 就 是 
一 个 进程 ,但 是 进程 的 “控制 块 ”， 即 task. struct 结构 中 需要 存放 更 多 的 信息 。 所 以 ， 从 这 个 意义 上 讲 ， 
Linux 的 进程 义 并 不 完全 是 Intel 设计 意图 中 的 任务 。 读 者 后 面 就 会 看 到 ，Linux 内 核 并 不 采用 任务 门 作 
为 进程 切换 的 手段 。 通过 任务 门 切换 到 -个 新 的 任务 并 不 是 惟一 的 途径 , 例如 在 程序 中 也 可 以 用 CALL 
指令 或 JMP 指令 通过 调用 门 达到 同样 的 目的 。DPL 位 段 的 作用 后 面 还 此 讨论 。 

除 任务 门 外 ， 其 余 三 种 门 的 结构 基本 相同 ， 每 个 门 的 大 小 也 都 是 64 fir, LE 32. 
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图 3.2 中 断 门 、 陷 阱 门 和 调用 门 结 构图 


三 种 门 之 间 的 不 同 之 处 在 于 3 位 的 类 型 码 。 中 崭 门 的 类 型 码 是 110， 陷 阱 门 的 类 型 码 是 111， 而 调 
用 门 的 类 型 码 是 100。 与 任务 门 相 比 ,不 同 之 处 主要 在 十 : 在 任务 门 中 不 需要 使 用 段 肉 位移， 因为 任务 
门 并 不 指向 某 一 个 子 程序 的 入 口 ，TSS 本 身 是 作为 一 个 段 来 对 待 的 ， 而 中 断 门 、 陷 阱 门 和 调用 门 则 都 
要 指 问 -一 个 子 程序 ， 所 以 必须 结合 使 用 段 选 择 码 和 段 内 位 移 。 此 外 ， 什 务 门 中 相对 于 D 标志 位 的 位 置 
|: 永远 是 0。 
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He Br CREE BET TES HI ERE DC AS EP oe SP a E AY SE d CPU 本 身 产 生 的 ， 而 是 在 寺 通 过 
PBT TEACH TAR SS REP CPU 会 白 动 将 中 渐 关 闭 , 也 就 是 将 CPU 中 EFLAGS 寄存 器 的 TE 标志 位 清 
RO CART HRES RIAU ACE; ETL IEA RSS FE REESE SE IF 标志 位 不 变 。 这 就 是 中 断 门 和 
陷阱 门 的 惟一 区 别 。 

不 管 是 什么 门 ， 都 通过 自选 择 码 指 身 个 存储 段 。 段 选择 码 的 作用 与 普通 的 段 寄 存 器 一 样 。 我 们 
在 第 2 章 中 讲 过 ， 在 保护 模式 下 段 寄 存 紫 的 内 容 并 不 直接 指向 一 个 段 的 起 始 地 址 ， 而 是 指向 由 GDTR 
或 LDTR 决定 的 某 个 段 描述 表 中 的 一 个 表 项 ， 所 以 才 又 称 为 “ 段 选 择 公 ”。 至 十 到 底 是 由 GDTR 还 是 
H LDTR 所 指向 的 段 描述 表 ， 则 取决 于 段 选择 个 中 的 一 个 TI 标志 位 。 在 Linux 内 核 中 ， 实 际 上 只 使 用 
全 局 段 描 述 表 GDT， 而 局 部 段 描 述 表 LDT 只 是 在 特殊 应 用 中 主要 是 WNE) 才 使 用 。 对 于 中 断 门 、 
陷阱 门 和 调用 门 米 说 ， 段 描述 表 中 的 相应 表 项 显然 应 该 是 一 个 代码 段 描述 项 。 而 任务 门 所 指向 的 描述 
Jj, 则 是 专门 为 TSS TRA TSS HAW. TSS 描述 项 的 结构 与 我 们 在 第 2 章 中 所 讲 的 基本 上 是 相同 的 ， 
但 是 bit44 的 S 标志 位 为 0， 表 示 不 是 - 般 的 代码 段 或 数据 段 。 

每 个 段 描述 项 中 都 有 - :个 DPL 位 段 ， 即 “描述 项 优先 级 别 ” 位 段 。 当 CPU 通过 中 断 门 找到 一 个 
代码 段 描述 项 ， 并 进而 转 入 相应 的 服务 程序 时 ， 就 把 这 个 代码 段 描述 项 装 入 CPU 中 ， 而 描述 项 的 DPL 
就 变 成 CPU 的 当前 运行 级 别 ， 称 为 CPL。 这 与 我 们 在 前 面 所 说 的 PDP-11 在 中 断 时 从 向 量 表 中 同时 装 
A PSW 和 服务 程序 入 口 地 址 是 一 致 的 .可 是 ,在 中断 门 中 也 有 一 个 PPL， 那 是 十 什么 用 的 呢 ? xxu 
要 讲 到 1386 的 保护 模式 中 对 运行 和 访问 级 别 进行 检查 比 对 的 机 制 了 。 

Intel 在 i386CPU 中 实现 了 一 套 可 谓 复杂 得 出 奇 的 优先 级 别 检验 机 制 。 我 们 在 这 里 只 根据 Linux 内 
核 的 实现 介绍 其 中 一 部 分 。 由 于 Linux 内 核 避 开 了 这 套 机 制 中 最 复杂 的 部 分 ， 例 如 不 使 用 任务 门 ， 基 
本 上 也 不 使 用 调用 门 〈 不 过 为 了 兼容 性 的 要 求 确 实 支 持 道 过 调用 门 来 进入 系统 调用 ， 但 不 是 主流 )， 坦 
说 在 这 里 我 们 只 关心 对 代码 段 的 访问 ， 所 以 剩 下 的 部 分 就 不 太 复 杂 了 。 

当 通 过 一 条 INT 指令 进入 一 个 中 断 服 务 程 序 时 ， 在 指令 中 给 出 一 个 中 断 向 量 。CPU 先 根 据 该 向 量 
在 中 断 向 量 表 中 找到 一 扇 门 《描述 项 )， 在 这 种 情况 下 一 般 总 是 中 断 门 。 然 后 ， 束 要 将 这 个 门 的 DPL 
与 CPU 的 CPL 相 比 ，CPL 必须 小 十 或 等 十 DPL， 也 就 是 优先 级 别 不 低 于 DPL, Z 8ESOUSXE]. ^ 
过 , 如 果 中 断 是 由 外 部 产生 或 是 因 CPU 异常 而 产生 的 话 ,， 那 就 免 去 了 这 一 层 检 验 。 穿 过 了 中 断 门 之 后 ， 
还 要 进一步 将 目标 代码 段 措 述 项 中 的 DPL 与 CPL 比较 ， 日 标 段 的 DPL 必须 小 于 或 等 于 CPL。 也 就 是 
说 ， 通 过 中 断 门 时 只 允许 保持 或 提升 CPU 的 运行 级 别 ， 而 不 允许 降低 其 运行 级 别 。 这 两 个 环节 中 的 任 
何 ” 个 失败 部 会 产生 次 全 而 保护 异常 Cgeneral_protection exception). 

进入 中 断 服 务 程 序 时 ，CPU 要 将 当前 EFLAGS 寄存 鼎 的 内 容 以 及 返回 地 址 讨 入 堆栈 ， 返 回 地 址 是 
由 段 寄存 器 CS 的 内 容 利 取 指 令 指 针 EIP 的 内 容 共 同 组 成 的 。 如果 中 断 是 由 异常 引起 的 ， 则 还 要 将 一 个 
表示 异常 原因 的 出 错 代 公 也 压 入 维 栈 。 进 一 步 ， 如 果 中 断 服务 程序 的 运行 级 别 ， 也 就 是 日 标 代 码 段 的 
DPL， 与 中 断 发 生 时 的 CPL 不 同 ， 那 就 要 引起 更换 堆栈 。 前 面 提 到 过 ，TSS 结构 中 除 所 有 常规 的 寄存 
AAA (包括 当 前 的 SS A ESP) 外 ， 还 有 三 个 额外 的 堆栈 指针 CSS 加 ESP)。 这 二 个 额外 的 堆栈 指针 
分 别 用 于 当 CPU 在 日 标 代码 段 中 的 运行 级 别 为 0，1 以 及 2 时 。 所 以 ，CPU 根据 寄存 器 TR 的 内 容 找 
到 当前 TSS 结构 ， 并 根据 日 标 代码 段 的 DPL， 从 这 TSS 结构 中 取出 新 的 堆栈 指针 (SS 加 ESP)， 并 装 
入 其 堆栈 段 寄 存 器 SS 和 堆栈 指针 (寄存 器 ， ESP， 达 到 更 换 堆栈 的 目的 。 在 这 种 情况 下 ，CPU 不 但 柴 
将 EFLAGS、 返 回 地 址 以 及 出 错 代码 压 入 堆栈 ， 还 上 比 先 将 原来 的 堆栈 指针 也 压 入 堆栈 (新 堆栈 )。 不 意 
图 3.3 也 许 有 助 于 埋 解 。 
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被 中 断 进 程 与 服务 程序 使 用 同一 堆栈 
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© 运行 级 别 改 变 
图 3.3 中 断 服务 程序 堆栈 示意 图 


具体 到 Linux 内 核 。 当 中 断 发 生 在 用 户 状态 、 也 就 是 CPU 在 用 户 空间 中 运行 时 ， 由 十 用 户 态 的 运 
行 级 别 为 3， 而 在 内 核 中 的 中 新 服务 程序 的 运行 级 别 为 0， 所 以 会 引起 堆栈 的 更 换 。 也 就 是 说 ， 从 用 户 
堆栈 切换 到 系统 堆栈 。 而 当中 其 发 牛 在 系统 状态 时 , 也 就 是 当 CPU 在 内 核 中 运行 时 ， 则 不 会 更 换 堆栈 。 

最 后 ， 在 保护 模式 中 ， 中 断 向 量 表 在 内 存 中 的 位 置 也 不 再 限 寺 从 地 址 0 开始 的 地 方 ， 而 是 像 GDT 
和 LDT 那样 可 以 放 在 内 存 中 的 任何 地 方 。 为 此 目的 ， 在 CPU 中 又 增设 了 一 个 寄存 器 IDTR， 指 向 当前 
中 断 问 量 表 IDT， 或 者 说 当前 中 断 描述 表 。 

图 3.4 的 示意 说 明了 i386 保护 模式 下 的 中 断 机 制 在 采用 中 断 门 或 陷阱 门 时 的 结构 。 

实际 的 i386 系统 结构 中 的 有 关机 制 比 上 面 讲 的 偿 要 复杂， 我 们 略 去 了 其 中 与 Linux 内 核实 现 无 关 
的 内 容 。 这 也 从 男 一 个 角度 说 明 ， 对 于 像 Linux 这 样 的 操作 系统 《事实 证 明 是 功能 最 强 ， 并 且 最 稳定 
的 系统 之 一 ) 来 说 ，i386 系统 结构 中 的 许多 内 容 是 不 必要 的 ， 甚 全 是 画蛇添足 的 ， 难 怪 有 些 学 者 批评 
Intel 将 1386 的 系统 结构 过 于 复杂 化 了 。 当 然 ， 也 有 可 能 将 米 会 出 纲 一 些 新 的 技术 ， 从 而 证 明 Intel 是 有 
远见 的 ， 我 们 拭目以待 。 如 果 说 ， 在 能 达到 相同 目标 的 前 提 下 简单 就 是 美 ， 那 么 i386 系统 结构 显然 是 
不 美的 。 而 相 比 之 下 ，Linux 内 核 的 实现 倒 确 实 是 :种 美 。 当 然 ， 不 管 怎么 说 ，i386 的 系统 结构 能 够 满 
足 像 Linux 这 样 的 现代 操作 系统 的 需要 ， 却 是 毫 雹 疑义 的 。 
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32 中断 向 量 表 IDT 的 初始 化 


Linux 内 核 在 初始 化 阶段 完成 了 对 页 式 虚 存 管 理 的 初始 化 以 后 , 便 凋 用 trap_int( ) 和 init_IRQ( ) 两 个 
函数 进行 中 断 机 制 的 初始 化 .其 中 trap_init( ) 主 要 是 对 一 些 系 统 保留 的 中 断 向 量 的 初始 化 , fi init_TRQC) 
则 主要 是 用 于 外 设 的 中 断 。 | 

eh XI trap. init( ) 是 在 arch/1386/kernel/traps.c 中 完 义 的 : 


949 void | init trap_init (void) 


950 { 

951 #ifdef CONFIG EISA 

952 if (isa readl(OxOFFFD9) == 'E'«CT' «D «C S’ <<16) * A’ <<24)) 
953 ETSA bus = 1; 

954 Hendi f 

955 

956 set trap gate (0, &divide error); 

957 set_trap_gate (1, &debug) ; 

958 set_intr_gate(2, &nmi) ; 

959 set system gate(3,&int3); /* int3-5 can be called from all */ 
960 set system gate (4, &overflow); 
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961 set system gate(5, &bounds) ; 

962 set trap gate(6, &invalid op); 

963 set trap gate(7, &device not available); 

964 set trap gate(8, &double fault); 

065 set trap gate(9, &coprocessor segment overrun); 
966 set trap gate(10, &invalid TSS); 

967 set trap gate(1l,&segment not present); 

968 set trap gate(12, &stack segment); 

969 set trap gate(13, &general protection); 

970 set trap gate(14, &page fault); 

971 set trap gate(15,&spurious interrupt bug); 

972 set irap gate(16, &coprocessor error); 

973 set trap gate(17,&alignment check); 

974 set trap gate(18, &machine check); 

975 set trap gate(19,&simd coprocessor error); 

976 

977 set system gate(SYSCALL VECTOR, &system call); 
978 

979 /* 

980 * default LDT is a single-entry callgate to lcall7 for iBCS 
981 * and a callgate to 1call27 for Solaris/x86 binaries 
982 */ 

983 set call gate(&default ldt[0], lcal17) ; 

984 set call gate(&default ldt[4], lcal127) ; 

985 

986 /* 

987 * Should be a barrier for any external CPU state. 
988 */ 

989 cpu init( ); 

990 

991 #ifdef CONFIG X86 VISWS APIC 

992 superio init( ); 

993 lithium init}; 

994 cobalt init( ); 

995 #endif 

996  ] 


程序 中 先 设置 中 断 向 量 表 开 头 的 19 个 陷阱 门 ， 这 些 中 斯 向 量 都 是 CPU 保留 用 于 异常 处 理 的 。 例 
W PRAE 14 就 是 为 页 面 异常 保留 的 ，CPU 硬件 在 贞 面 映射 及 访问 的 过 程 中 发 生 问 题 〈 如 缺 页 )， 
就 会 产生 一 次 以 14(0xe) 为 中 断 向 量 的 异常 。 操 作 系统 的 设计 和 实现 必须 遵守 这 些 规 定 。 

然后 是 对 系统 调用 向 量 的 初始 化 ， 常 数 SYSCALL VECTOR 在 include/asm_i386/hw_irg.h 中 定义 
为 0x80， 所 以 执行 一 条 “INT 0x80” 指 令 就 是 进行 一 次 系统 调用 。 

Linux 操作 系统 本 身 并 不 使 用 调用 门 ， 但 是 有 些 Unix 变种 已 经 用 了 调用 门 来 实现 系统 调用 ， 如 注 
REP ATUL) iBCS 和 Solaris/X86。 为 了 与 这 些 系 统 上 编译 的 应 用 程序 可 执行 代码 相 兼 容 ，Linux 内 核 也 
相应 设 首 了 两 个 调用 门 ， 983 行 和 984 行 就 是 对 这 两 个 调用 门 的 初始 化 。 由 十 我 们 在 这 里 并 不 关心 SGI 
公司 的 特殊 工作 站 显示 设备 ， 所 以 斌 赂 去 了 从 991 行 开 始 的 几 行 条 件 编译 代 但 。 
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从 程序 中 可 以 看 到 ， 这 里 用 了 二 个 函数 来 进行 这 些 表 项 的 初始 化 ， 那 就 是 set_trap_gate( ). 
set system gate( ) 以 及 set call gate( )。 还 有 -个 用 于 外 设 中 断 的 set intr. gate( )， 这 里 虽然 没有 用 到 ， 
但 是 也 属 寺 癌 一 组 函数 。 这 些 函 数 都 是 在 文件 arch/i386/kernel/traps.c 中 定义 的 : 





808 void set intr gate(unsigned int n, void *addr) 


809 { 

810 Set gate (idt table-n, 14, 0, addr) ; 
811 } 

812 


813 static void __init set trap gate(unsigned int n, void *addr) 
814 { 

815 _set_gate (idt_tabletn, 15, 0, addr) ; 

816  ] 


818 static void | init set system gate(unsigned int n, void *addr) 
819 { 


820 set gate(idt tabletn, 15, 3, addr) ; 

821  ] 

822 

823 static void ^ init set call gate(void *a, void *addr) 
824 | 

825 set gate (a, 12, 3, addr) ; 

826 } 


这 些 函 数 都 调用 同一 个 子 程序 _set_gate( )， 设 置 中 断 找 述 表 idt table 中 的 第 n 项 , 所 不 同 的 是 参数 
表 中 的 第 2 个 、 第 3 个 参数 。 第 2 个 参数 对 应 于 中 断 门 或 陷阱 门 格式 中 的 D 标志 位 加 上 类 型 位 段 。 参 
数 14 RAR D 标志 位 为 1 而 类 型 为 110, 所 以 set_intr_gate( ) 设 置 的 是 中 断 门 。 第 3 个 参数 则 对 应 于 DPL 
位 段 。 中 断 门 的 DPL 一 律 设 置 成 0 是 有 讲究 的 。 当 中 断 是 由 外 部 产生 或 是 CPU 异常 产生 时 ， 中 断 门 
的 DPL 是 被 忽略 不 顾 的 ,所 以 总 能 穿 过 该 中 断 门 。 可 是 ， 划 是 用 户 进 称 在 用 户 空 间 试 着 用 :条 “INT2” 
来 进入 不 可 屏 敞 中 断 的 服务 程序 时 ,由 于 用 户 状态 的 这 行 级 别 为 3， 而 中 断 门 的 DPL 为 0( 级 草 最 高 )， 
由 软件 产生 的 中 断 就 会 被 拒 之 门 外 《〈CPU 会 产生 一 次 路 常 )， 因 此 不 能 得 逮 。 同 样 ，set_trap_gate( ) 也 
将 DPL 设 成 0， 所 不 同 的 十 调用 _set_gate( ) 时 的 第 2 个 参数 为 15， 也 即 类 型 为 11, 表示 所 设置 的 是 陷 
厦门 。 我 们 在 前 面 已 经 讲 过 ， 隐 阱 门 与 中 断 门 的 不 同 仪 在 于 通过 中 断 门 进入 服务 程序 时 和 白 动 关中 断 ， 
和 而 通过 陷 附 门 进入 服务 程序 时 则 维持 不 安 。 所 以 ， 例 如 说 ， 因 CPU 的 页 面 异 常 而 进入 服务 程序 时 ， 中 
Wee ah, RIEZ 2 章 中 看 到 过 的 那些 程序 ， 如 handle mm fault( ) 等 等 ， 都 是 吕 中 断 的 。 此 
外 set_system_gate( ) 所 设置 的 也 是 陷阱 门 ， 所 以 系统 调用 也 是 可 中 断 的 。 但 是 DPL 为 3， 因 为 系统 调 
用 是 在 用 户 空间 通过 “INT 0x80” 进 行 的 ， 只 有 将 该 陷阱 门 的 DPL 设 成 3 才能 让 系统 调用 顺利 穿 过 ， 
否则 就 会 把 系统 调用 拒 之 门 外 了 。 

进步 看 看 ， 这 些 IDT 表 项 到 底 怎么 设置 。_set_gate( ) 也 在 同一 文件 (traps.c) 中 定义 : 

788 #define set gate(gate addr, type, dpl, addr) V 
789 do { \ 
790 int dd, dl; \ 
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791 asm _ volatile (movw %%dx, %%ax\n\t” \ 

792 “movw %4, %%dx\n\t” \ 

793 “movl %%eax, %O\n\t” \ 

794 "movl %%edx, %1” \ 

795 ;"-m^ Ck((long *) (gate addr))), \ 

796 “=m” (k(1+ (long *) (gate addr))), “=&a” ( dO), "-&d" ( dl) \ 
797 ^i" ((short) (0x8000* (dp1<<13) + (type<<8))), \ 

798 "3" ((char *) (addr)),”2” (__KERNEL_CS << 16)); \ 

799  } while (0) 


首先 ，do { }while (0) 决 定 了 它 的 循环 体 ， 也 就 是 从 790 行 至 798 行 ， 一 定 会 被 执行 3, FHR 
执行 一 遍 。 特 别 是 在 编译 时 不 管 在 什么 情况 下 都 不 会 有 问题 〈 见 第 1 章 )。 从 795 行 的 第 - -个 “:” 到 
797 行 的 第 2 个 “: ”之 间 为 输出 部 ， 其 中 说 明了 有 四 个 变量 会 被 改变 ， 分 别 与 %0、%1、%2 31953 相 
结合 。 其 中 %0 与 参数 gate addr £57, %1 与 (gate_addr+1) 结 合 ， -者 都 是 内 存单 元 ;多 2 与 局 部 变量 
_d0 结合 ， 存 放 在 寄存 器 多 9%eax 中 ， 而 %3 与 局 部 变量 __dl 结合 ， 存 放 在 寄存 器 多 5%pedx H. M 797 
行 则 为 输入 部 。 由 于 输出 部 已 经 定义 了 %0~%3， 输 入 部 中 的 第 一 个 变量 便 为 %4， 而 后 面 还 有 
两 个 变量 分 别 等 价 十 输出 部 中 的 %3 和 %2。 输 入 部 中 说 明 的 各 输入 变量 的 值 ， 包 括 和 3 和 %2 的 值 ， 都 
会 在 引用 这 些 变量 之 前 设置 好 。 

为 了 方便 ， 我 们 把 所 要 求 的 中 断 门 《或 陷阱 门 ) 的 格式 再 表示 在 图 3.5. 





段 选择 码 入 口 地 址 的 低 16 位 


图 3.5 中 断 门 和 陷阱 门 的 格式 定义 


由 于 791 行 要 用 到 多 %dx 和 %%ax ,所 以 编译 (以 及 汇编 ) 以 后 的 代码 会 按 输 入 部 的 说 明 先 将 多 %edx 
设 成 addr, ifj 9696ax 设 成 (__KERNEL_CS<<16). M 791 行将 %%dx 的 低 16 位 移入 %%ax 的 低 16 位 
(注意 %@%dx 3% %edx 的 区 别 )。 这 样 ， 在 %9%eax 中 就 形成 了 所 需要 的 中 断 门 的 第 - -个 长 整数 ， 其 高 
16 位 为 KERNEL_CS ,而 低 16 位 为 addr 的 低 16 位 。 接 着 , Æ 792 行 中 将 (0x8000+(dpl<<3)+(type<<8)) 
六 入 %%edx 的 低 16 位 。 这 样 ，W%%edx 中 高 16 位 为 addr 的 高 16 位 ， 而 低 16 位 的 P 位 为 1《〈 因 为 是 
0X8000)，DPL 位 段 为 dp! (因为 dpl<<3)， 而 DD 位 加 上 类 型 位 段 则 为 type (因为 type<<8)， 其 余 各 位 
生 为 0。 这 就 形成 了 中 断 门 中 的 第 2 个 长 整数 。 然 后 ，793 行将 %%eax 5 A*gate_addr, ihi 794 行 则 将 
多 Yedx 与 入 *(gate_addr+l)。 读 者 不 妨 试 试 ， 看 看 能 和 否 写 出 效率 更 禹 的 代码 ! 当然 ， 这 种 高 效率 是 以 
牺牲 可 读 性 为 代价 的 。 对 于 像 设 秆 IDT 表 项 一 类 并 不 是 频繁 发 生 的 操作 ， 这 样 做 是 否 值得 ， 大 可 商 枞 。 
不 过 ， 这 上 毕竟 是 在 内 核 中 ， 而 用 是 很 底层 的 东西 ， 一 般 也 不 会 有 很 多 人 去 读 、 去 维护 的 。 
系统 初始 化 时 ， 在 trap_init( ) 中 设置 了 : 些 为 CPU 保留 专用 的 IDT 表 项 以 及 系统 调用 所 用 的 陷阱 
JARE., MEHEA dni IRQ ) 设 置 大量 用 于 外 设 的 通用 中 断 门 了 了。 函数 init IRQC ) 的 代码 在 
arch/1386/kernel/i8259.c 中 : 
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438 void | init init_IRQ (void) 


439 { 

440 int i; 

441 

442 &ifndef CONFIG X86 VISWS APIC 

443 init ISA irgs( ); 

444 Helse 

445 init VISWS APIC irqs( ); 

446 Hendif 

447 /* 

448 * Cover the whole vector space, no vector can escape 
449 * us. (some of these will be overridden and become 
450 * ’ special’ SMP interrupts) 

451 */ 

452 for (i = 0; i < NR IRQOS; i++) f 

453 int vector = FIRST EXTERNAL VECTOR + i; 

454 if (vector != SYSCALL VECTOR) 

455 set intr gate(vector, interrupt[i]); 

456 } 

457 


首先 是 在 init ISA_irq( ) 中 对 PC 的 中 断 控 制 器 8259A 进行 初始 化 ， 并 且 初 始 化 一 个 结构 数组 
irq_descf ]。 为 什么 要 有 这 么 一 个 结构 数组 呢 ? 我 们 知道 ，i386 的 系统 结构 文 持 256 SEMA, 20 
JUR E CPU 本 身 保 留 的 向 量 。 但 是 ， 作 为 一 个 通用 的 操作 系统 ， 很 难说 剩 下 的 这 些 中 断 向 量 是 否 
够 用 。 而 县 ， 很 多 外 部 设备 由 于 种 种 原因 可 能 本 来 就 不 得 不 共用 中 断 向 量 。 所 以 ， 在 像 Linux 这 样 的 
系统 中 ， 限 制 每 个 中 断 源 都 必须 独占 使 用 个 中 断 向 量 是 不 现实 的 。 解 决 的 方法 是 为 共用 中 断 向 量 提 
供 一 种 手段 。 因 此 ， 系 统 中 为 每 个 中 断 向 量 设置 一 个 队列 ， 而 根据 每 个 中 断 源 所 使 用 (产生 ) 的 中 断 


部 以 及 控制 结构 。 当 中 某 发 生 时 ， 首 先 执行 与 中 斯 向 量 相对 应 的 一 段 总 服务 程序 ， 根 据 具 体 中 断 汰 的 
设备 号 在 其 所 属 队 亿 中 找到 特定 的 服务 程序 加 以 执行 。 这 个 过 程 我 们 将 在 以 后 详细 介绍 ， 这 里 只 要 知 
道 需要 有 这 么 一 个 结构 数组 就 行 了 。 

接 者 ， 从 FIRST EXTERNAL VECTOR Fi, wV. NR_IRQS 个 中 断 问 量 的 IDT RI. HA 
FIRST EXTERNAL VECTOR 在 include/asm-i386/hw_irq.h 中 定义 为 0x20， 而 NR_IRQS 则 为 224， 那 
是 在 include/asm-i386/irq.h 中 定义 的 。 不 过 ， 要 跳 过 用 于 系统 调用 的 回 量 0x80， 那 已 经 在 六 而 设置 好 
了 。 这 里 设置 的 服务 程序 入 口 地 址 都 来 自 个 函数 指针 数组 interrupt ]。 

函数 指针 数组 interrupt[ ] 的 内 容 也 是 在 arch/i386/kernel/i8259.c 中 定义 的 ; 


98  #define IRQ(x, y) \ 

99 IRQHHxHHYyHH# interrupt 

100 

101 #detine IRQLIST_16(x) \ 

102 IRQ(x, 0), IRQ(x, D, IRQ(x, 2), IRQ(x, 3), V 
103 [RQ(x, 4), IRQ(x, 5), LRQ(x,6), IRQ(x,7), \ 
104 IRQ(x, 8, IRQ(x,9), IRQ(x,a), IRQ(x,b), \ 
105 IRQ(x,c), IRQ(x,d), IRQ(x,e), IRQ(x, D 
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106 
107 void Ckinterrupt[NR IRQS]) (void) = 1 
108 IRQLIST_16 (0x0), 


109 
110 #ifdef CONFIG X86 IO_APTC 
ill IRQLIST 16(0x1), IRQLIST 16(0x2), IRQLIST_16 (0x3), 


112 IRQLIST 16(0x4), TRQLIST 16(0x5), IRQLIST 16(0x6), TRQLIST. 16(0x7), 
113 IRQLIST 16(0x8), TRQLIST 16(0x9), IRQLIST 16(0xa), IRQLIST. 16 (0xb), 
114 IRQLIST 16(0xc), IRQLIST. 16 (Oxd) 


115 Hendif 
116 hà 
117 


118 #undef IRQ 
119 #undef IRQLIST_16 


数组 的 第 一 部 分 内 容 定义 于 107 行 ， 顺 着 IRQLIST_16(x) 和 IRQ(x,y) 的 定义 到 98 fT, WANKER 
数 指针 的 文字 是 由 gee 的 预 处 理 自 动产 生 的 ， 因 为 符号 排 的 作用 是 将 字符 串 连 接 在 一 起 。 例如， 当 108 
行 以 参数 0x0《〈 作 为 字符 溃 ) 调用 IRQLIST_16( ) 时 ，102 行 中 的 IRQ (x,0) 就 会 在 预 处 理 阶段 被 替换 
AX IRQOx00_interrupt. 后 面 依次 为 IRQOxO1_interrupt. IRQOx02_interrupt. + Ei f| IRQOx0f_interrupt。 
这 样 ， 就 利用 gec 的 预 处 理 白 动 生 成 了 所 需 的 文字 ， 而 避免 了 由 燥 繁 琐 的 文字 录入 和 编辑 。 所 以 ， 这 
一 部 分 给 出 了 interrupt[ ] 中 的 开头 16 个 函数 指针 。 对 于 单 CPU 系统 结构 ， 后 面 的 指针 就 部 是 NULL 
了 。 如 果 是 多 处 理 占 SMP 结构 ， 则 后 面 还 有 IRQOx10 全 IRQOxdf 等 208 Heh BEET. 

那么 , 从 IRQOx00_interrupt 到 IRQOxOf_interrupt 这 16 个 函数 本 身 是 在 哪儿 定义 的 昵 ?请 看 18259.c 
中 的 另外 几 行 : 


38 Hdefine BI(x,y) \ 


39 BUILD_IRQ (##x##y) 

40 

41 #define BUILD_16_IRQS (x) \ 

42 BI (x, 0) BI (x, D BI(x, 2) BI(x,3) WV 

43 BI (x, 4) Bl (x, 5) BI (x, 6) BI (x, 7) \ 

AA BI (x, 8) BI(x,9) BI(x,a) BI(x,b) \ 

45 BI (x, c) BI (x, d) BI(x,e) BI (x, f) 

46 

47 /* 

48 * ISA PIC or low IO-APIC triggered (INTA-cycle or APIC) interrupts: 
49 * (these are usually mapped to vectors 0x20-0x2f) 
50 */ 


91 BUILD 16 TRQS (0x0) 


APL, 51 行 的 宏 定 义 BUILD_16_IRQS(Ox0) 在 预 处 埋 阶段 会 被 展开 成 从 BUILD. IRQS(0x00) Æ 
BUILD_IRQS(0x0f) 共 16 项 宏 定义 的 引用 。 而 BUILD_IRQS( ) 则 是 在 include/asm-i386/hw_irg.h 中 定义 
的 ; 


172 #define BUILD_IRQ(nr) \ 
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asmlinkage void IRQ NAME (nr); ^ 

. asm, ( \ 

“\n” | ALIGN STR “An \ 

SYMBOL NAME STR(IRQ) #nr ^ interrupt: WAiMt" \ 
"pushl $”’#nr”-256\n\t” \ 
“jmp common interrupt"); 


经 过 gee 的 预 处 理 以 后 ， 便 会 展开 成 一 系列 如 下 式样 的 代码 : 


asmlinkage void IRQOx01 interrupt ( ) : 


"IRQ0xO1 interrupt: \n\t”\ 


" 
pu 


shl $0x01 - 256\n\t”\ 


“jmp common interrupt ^); 


由 此 可 以 看 出 ， 实 际 上 由 外 设 产生 的 中 断 处理 全 都 进入 一 段 公 共 的 程序 common, interrupt H, ih 
CEES ATS) HB) IRQOxO1_interrupt 或 者 IRQOx02_interrupt 等 等 的 日 的 ， 只 在 于 由 此 得 到 一 个 与 中 断 
向 量 相关 的 数值 ( 压 入 堆栈 中 )。 对 应 于 IRQOx00_interrupg 2!) IRQOxOf_interrupt, 该 数值 分 别 为 OxOfffff00 
至 0xffffffof ， 余 类 推 。 至 于 commom interrupt, 那 也 是 由 gcc 的 预 处 理 展 升 一 个 宏 定 义 
BUILD. COMMON _IRQ( ) 而 生成 的 ， 这 段 程序 我 们 在 后 面 的 情景 中 还 归 讲 ， 这 里 先 从 略 。 

回 到 init IRQ() PARE TE 卜 看 (18259.c): 


#ifdef CONFIG_SMP 


&endif 


/* 

* Set the clock to HZ Hz, we already have a valid 

* vector now: 

*/ 

outb p(0x34, 0x43) ; /* binary, mode 2, LSB/MSB, ch 0 */ 
outb p(LATCH & Oxff , 0x40); /* LSB */ 

outb (LATCH >> 8 , 0x40); /* MSB */ 


#ifndef CONFIG VISWS 
setup irq(2, &irqg2); 
&endif 


/* 

* External FPU? Set up irgl3 if so, for 

* original braindamaged IBM FERR coupling. 

*/ 

if (boot cpu data. hard math && !cpu has fpu) 
setup irq(13, &irq13); 
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由 寸 我 们 在 这 里 既 不 关心 多 处 理 器 SMP 结构 ， 也 不 考虑 SGI 工作 站 的 特 狐 处 理 ， 剩 下 的 就 只 是 
对 系统 时 钟 的 初始 化 了 。 人 代码 中 有 个 注解 ， 说 我 们 已 经 有 了 个 中 断 向 量 ， 实 际 上 指 的 是 
IRQOx00_interrupt。 但 是 此 注意 ,虽然 该 中 断 服务 的 入 口 地 址 已 经 设置 到 中 断 向 量 表 中 , 但 实际 上 我 们 
还 没有 把 其 体 的 时 钟 中 断 服务 程序 挂 到 IRQ0 的 队列 中 去 。 这 个 时 候 ， 这 些 irg 队列 都 还 是 空 的 ， 所 以 - 
即使 开 了 中 断 ， 并 且 产 生 了 时 钟 中 断 ， 也 只 不 过 是 让 它 在 common, interrupt 中 空 跑 -- 趟 。 读 省 以 后 将 
看 到 ， 时 钟 中 断 和 对 时 钟 中 断 的 服务 ， 就 好 像 是 动物 的 心跳 、 脉 捕 。 而 现在 内 核 的 脉搏 尚 末 开始 。 为 
什么 还 不 让 它 开始 呢 ?” 这 是 因为 系统 在 这 个 时 候 还 没有 完成 对 进程 调度 机 制 的 初始 化 ， 而 一 旦 时 钟 中 
断 开 始 ， 进 度 调 虔 也 就 要 随 之 开始 。 所 以 ， 一 定 此 等 完成 了 对 进程 油 度 的 初始 化 ， 作 好 了 淮 备 以 后 才 
能 让 脉搏 开 始 跳 动 。 

由 此 可 见 ， 设 计 一 个 真正 实用 的 操作 系统 ， 有 多 少 事情 需 此 周到 精细 的 考虑 ! 


3.3 中断 请 求 队 列 的 初始 化 


在 前 一 节 中 ， 我 们 讲 到 中 断 向 量 表 〈 更 准确 地 ， 应 该 说 “中 断 描 述 表 ”) IDT 中 有 两 种 表 项 ， 一 种 
是 为 保留 专用 于 CPU 本 身 的 中 断 门 ， 主 要 用 于 由 CPU 产生 的 异常 ， 如 “除数 为 0”"、“ 页 面 错 ” 等 等 ， 
以 及 由 用 户 程序 通过 INT 指令 产生 的 中 断 《〈 或 称 “ 陷 阱 ”， 主 要 用 来 产生 系统 调用 〈 另 外 还 有 个 用 于 
debug 的 INT 3)。 这 些 中 断 门 的 向 量 除 用 寺 系 统 调用 的 0x80 外 都 在 0x20 以 下 。 从 0x20 开始 就 是 第 2 
种 表 项 ， 共 224 项 ， 都 古 用 于 外 设 的 通用 中 断 门 。 这 二 者 的 区 别 在 于 通用 中 断 门 可 以 为 多 个 中 断 源 所 
共享 ， 而 专用 中 断 门 则 是 为 特定 的 中 断 源 所 专用 。 

由 于 通用 中 断 门 是 让 多 个 中 断 源 共用 的 ， 而 有 卫 人 允许 这 种 共用 的 结构 在 系统 运行 的 过 程 中 动态 地 变 
化 ， 所 以 在 IDT 的 初始 化 阶段 只 是 为 每 个 中 断 向 量 ， 也 即 每 个 表 项 准备 下 一 个 “中 断 请 求 队列 ”， 从 而 
形成 个 中 断 请 求 队列 的 数组 ， 这 就 是 数组 irq_descf ]。 中 断 请 求 队列 头 部 的 数据 结构 是 在 
include/linux/irq.h 中 定义 的 : 


23 /* 

24 * Interrupt controller descriptor. This is all we need 
25 * to describe about the low-level hardware. 

26 */ 

27 struct hw interrupt type | 

28 const char * typename; 

29 unsigned int (*startup) (unsigned int irq); 

30 void (*shutdown) (unsigned int irq); 

81 void (*enable) (unsigned int ira): 

32 void (disable) (unsigned int irq); 

33 void (kack) (unsigned int irq); 

34 void (*end) (unsigned int irq): 

35 void (*set affinity) (unsigned int irq, unsigned long mask); 
36 Jj; 

37 

38 typedef struct hw interrupt type hw_irq controller: 

39 

40 /* 
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41 * This is the “IRQ descriptor”, which contains various information 
42 * about the irg, including what kind of hardware handling it has, 
43 * whether it is disabled etc etc. 

44 * 

45 * Pad this out to 32 bytes for cache and indexing reasons. 

46 */ 

47 typedef struct { 

48 unsigned int status: /* IRQ status */ 

49 hw irq controller *handler; 

50 struct irqaction *action; /* IRQ action list */ 

51 unsigned int depth; /* nested irq disables */ 

52 spinlock t lock; 

53 | |  cacheline aligned irq desc t; 

54 


55 extern irq desc t irq desc [NR IRQS]: 


每 个 队列 头 部 中 除 指针 action 用 来 维持 一 个 由 中 断 服务 程 序 描述 项 构成 的 单 链 队 列 外 ， 还 有 个 指 
针 handler 指向 另 一 个 数据 结构 ， 即 hw. interrupt type 数据 结构 。 那 里 主要 是 一 些 函 数 指针 ， 用 于 该 队 
列 ， 或 者 说 该 共用 “中 断 通道 ” 的 控制 〈 而 并 不 是 对 具体 中 断 源 的 服务 )。 上 基体 的 函数 则 取决 十 所 用 的 
中 断 控 制 器 (通常 是 i8259A)。 例 如 ， 函 数 指针 enable 和 disable 用 来 开启 和 关 断 其 所 属 的 通道 ，ack 


init_ISA_irqs( ) 设 置 好 的 ， 见 i8259.c: 


413 void | init init ISA irqs (void) 


44 | 

415 int. i; 

416 

417 init 8259A(0); 

418 

419 for (i = 0; i < NR IRQS; i++) { 

420 irg_descli]. status = IRQ DISABLED: 

421 irq desc[i].action = 0: 

422 irq desc[i]. depth = 1; 

423 

424 if (i< 16) 4 

425 /* 

426 * 16 old-style INTA-cycle interrupts: 
42T */ 

428 irq desc[i]. handler = &18259A irq type: 
429 } else { 

430 /* 

431 * ‘high’ PCI IRQs filled in on demand 
432 */ 

433 irq desc[i].handler = &no irq type: 
434 } 

435 } 


- 204 . 


第 3 章 中断、 异常 和 系统 调用 
436 } 


程序 先 调用 init 8259A( ) 对 8259A 中 断 摊 制 器 进行 初始 化 《其 代码 也 在 18259.c 中 )， 然 后 将 开关 
16 个 中 断 请 求 队列 的 handler 指针 设置 成 指向 数据 结构 i8259A_irg_ type, JI EET 18259.c 中 定义 的 : 


148 static struct hw interrupt type i8259A irq type = | 
149 i 

150 startup 8259A irg, 

151 shutdown 8259A irq, 

152 enable 8259A irq, 

153 disable 8259A ira, 

154 mask and ack 82594, 

155 end 8259A irq, 

156 NULL 

ibe — dE 


用 于 具体 中 断 服 务 程序 描述 项 的 数据 结构 irqgaction， 则 是 在 include/linux/interrupt.h 中 定义 的 : 


14 struct irqaction { 


15 void (*handler) (int, void *, struct pt regs *); 
16 unsigned long flags; 

17 unsigned long mask; 

18 const char *name; 

19 void *dev id; 

20 struct irqaction *next; 

2] ie 


共 中 最 主要 的 就 是 图 数 指 针 handler， 指 向 具体 的 中 断 服 务 程序 。 

TE IDT 表 的 初始 化 完成 之 初 ， 每 个 中 断 服 务 队 刻 都 是 空 的 。 此 时 即使 打开 中 断 并 且 某 个 外 设 中 断 
真 的 发 生子 ， 也 得 不 到 实际 的 服务 。 昌 然 从 中 断 源 的 硬件 以 及 中 断 控制 器 的 角度 来 看 似乎 已 经 得 惠 服 
务 了 , 因为 形式 上 CPU 确实 通过 中 断 门 进入 了 某 个 中 断 向 基 的 总 服务 程序 , 例如 TRQOXOL interrupt( )， 
并 且 按 要 求 执 行 了 对 中 断 控制 器 的 ack( ) 以 及 end( )， 然 后 执行 iret FROM PUTIN]. fà, MER 
了 角度、 功能 的 角度 来 看 ， 则 其 实 并 没有 得 到 实质 的 服务 ， 央 为 并 没有 执行 具体 的 中 断 服 务 程序 ， 所 以 ， 
自 止 的 中 断 服务 要 到 具体 设备 的 初始 化 程序 将 其 中 其 服务 程序 通过 request_irq( ) 同 系统 “登记 ”， 挂 入 
基 个 中 断 请 求 队列 以 后 才 会 发 生 。 

函数 request, irq( ) 的 代码 在 arch/i386/kernel/irq.c F: 


630 / 米 来 

631 * request irq - allocate an interrupt line 

632 *  Girg: Interrupt line to allocate 

633 * @handler: Function to be called when the IRQ occurs 
634 * @irqflags: Interrupt. type flags 

635 *  @devname: An ascii name for the claiming device 

636 * @dev_id: A cookie passed back to the handler function 
637 * 
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638 * This call allocates interrupt resources and enables the 

639 * interrupt line and IRQ handling. From the point this 

640 * call is made your handler function may be invoked. Since 

641 * your handler function must clear any interrupt the board 

642 * raises, you must take care both to initialise your hardware 

643 * and to set up the interrupt handler in the right order. 

644 * 

645 * Dev id must be globally unique. Normally the address of the 

646 * device data structure is used as the cookie. Since the handler 

647 * receives this value it makes sense to use it. 

648 * 

649 * [f your interrupt is shared you must pass a non NULL dev id 

650 * as this is required when freeing the interrupt. 

651 x 

652 * Flags: 

653 * 

654 * SA SHIRQ Interrupt is shared 

655 * 

656 * — SA INTERRUPT Disable local interrupts while processing 

657 * 

658 * SA SAMPLE RANDOM The interrupt can be used for entropy 

659 * 

660 */ 

661 

662 int request irq(unsigned int irq, 

663 void Ckhandler) (int, void *, struct pt regs *), 

664 unsigned long irqflags, 

665 const char * devname, 

666 void *dev id) 

667 | 

668 int retval; 

669 struct irqaction * action; 

670 

671 #if 1 

672 /* 

673 * Sanity-check: shared interrupts should REALLY pass in 

674 * a real dev-ID, otherwise we ll have trouble later trying 

675 * to figure out which interrupt is which (messes up the 

676 * interrupt frecing logic etc). 

677 */ 

678 if (irqflags & SA SHIRQ) { 

679 if (!dev id) 

680 printk( Bad boy: %s (at Ox%x) called us without a dev id!Wn^, 
devname, (&irq) [-1)) ; 

681 } 

682 Hendif 

683 


684 if (irq >= NR IRQS) 
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685 return —EINVAL; 

686 if (!handler) 

687 return -EINVAL; 

688 

689 action = (struct irgaction *) 
690 kmalloc(sizeof(struct irgaction), GFP KERNEL); 
691 if (laction) 

692 return ENOMEM: 

693 

694 action-»handler = handler; 
695 action->flags = irgflags; 

696 action->mask = 0; 

697 action-^name = devname; 


698 action->next = NULL; 
699 action->dev id = dev id; 


700 

701 retval = setup irq(irq, action); 
702 if (retval) 

703 kfree (action); 

104 return retval; 

705 } 


参数 irq 为 中 断 请 求 队列 的 序号 ， 也 号 是 人 们 通常 所 说 的 “中 断 请 求 号 ?， 对 应 于 中 断 控制 器 中 的 
一 个 通道 ， 有 时候 要 在 接口 卡 上 通过 微型 开关 或 跳 线 来 设置 。 但 是 此 注意 ， 这 样 的 中 断 请 求 号 与 CPU 
所 用 的 “中 断 号 ”或 “中 断 向 量 ” 是 不 同 的 ， 中 断 请 求 号 IRQO 相当 于 中 断 向 量 0x20。 也 许 ， 可 以 把 
这 种 中 其 请求 号 看 成 “还 辑 ” 中 断 问 量 ， 而 后 者 则 为 “物理 ” 中 断 向 量 。 通 常 ， 前 16 个 中 断 请 求 通 
18 IRQO 至 IRQIS 是 由 中 断 探 制 器 18259A 控制 的 。 参 数 ireflags 是 一 些 标 志 位 ， 其 中 的 SA_SHIRO fx 
志 表 示 与 其 他 中 断 源 公用 该 路 断 请 求 通道 。 此 时 必须 提供 个 非 零 的 dev. id 以 供 区 别 。 当 中 断 发 生 时 ， 
参数 dev id 会 被 作为 调用 参数 传 回 所 指定 的 服务 程序 。 全 于 这 dev id 到 底 是 什么 ，request_irq( ) 和 中 
断 服务 的 总 控 并 不 企 乎 ， 只 可 各 个 具体 的 中 断 服务 程 序 自 己 能 够 辨识 和 使 用 如 可 ， 所 以 这 里 dev id 的 
类 型 为 void*。 而 request, irq( ) 中 则 对 此 进行 检查 。 顺 使 提 一 下 ，printk( ) 产 生 “个 出 错 信和 总， 通常 是 写 
入 文件 /var/log/messages 或 者 在 屏幕 上 显示 ， 取 雇 于 “守护 神 ”syslogd 和 klogd 是 省 已 经 在 运行 。 这 里 
有 趣 的 是 语句 中 的 参数 《6&cirq) [一 1H]。 这 里 irq 是 第 一 个 调用 参数 ， 所 以 是 最 后 讨 入 堆栈 的 ，&irq 就 
是 参数 irq 在 堆栈 中 的 位 置 ,那么 ,在 &irq 下 向 的 是 什么 岂 ? 那 就 是 函数 的 返回 地 址 。 所 以 ,这 个 printk( ) 
语 急 显示 该 request_irq( ) 函 数 是 从 什么 地 方 调用 的 , 使 程序 呐 可 以 根据 这 个 地 址 发 现 是 在 哪个 函数 中 调 
用 的 。 

住 分 配 并 设置 了 一 个 irqaction 数据 结构 action 以 后 ， 便 调用 setup_irq( )， 将 其 链 入 相应 的 中 断 请 
求 队列 。 其 代码 企 同 一 文件 (irq.c) 中 : 


958 /* this was setup x86 irq but it seems pretty generic */ 


959 int setup irq(unsigned int irq, struct irgaction * new) 
960 d 

961 int shared = 0; 

962 unsigned long flags; 
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struct irgaction *old, **p; 
irq desc t *desc - irq desc + irq; 


/* l 

* Some drivers like serial.c use request irq( ) heavily, 

* so we have to be careful not to interfere with a 

* running system. 

*/ 

if (new->flags & SA SAMPLE RANDOM) | 
/* 
* This function might sleep, we want to call it first, 
* outside of the atomic block. 
* Yes, this might clear the entropy pool if the wrong 
* driver is attempted to be loaded, without actually 
* installing a new bandier, but is this really a problem, 
* only the sysadmin is able to do this. 


rand initialize irq(irq); 


/* 
* The following block of code has to be executed atomically 
*/ 
spin lock irqsave(&desc->lock, flags); 
p = &desc-?action; 
if ((old = *p) != NULL) { 
/* Can't share interrupts unless both agree to */ 
if (! (old->flags & new->flags & SA_STITRQ)) { 
spin unlock _irgrestore (&desc—> lock, flags); 
return -EBUSY; 
) 


/* add new interrupt at end of irq queue */ 
do { 
p = &old->next; 
old = *p; 
} while (old); 
shared = 1; 


*p — new; 


if (!shared) { 
desc-»depth = 0; 
desc—>status &- ~ (IRQ DISABLED | IRQ AUTODETECT | TRQ WAITING) ; 
desc-^handler-^startup(irq); 
} 


spin unlock irqgrestore (&desc-> lock, flags); 
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1011 

1012 register irq proc (irq); 
1013 return 0; 

1014  ] 


计算 机 系统 在 使 用 中 常常 有 产 牛 随机 数 的 此 求 ， 但 是 此 产后 真正 的 随机 数 是 不 可 能 的 《所 以 由 计 
算 机 产后 的 随机 数 称 为 “ 伪 随 机 数 ”)。 为 了 达到 尽 可 能 的 随机 ， 需 要 在 系统 的 运行 中 引入 一 些 随 机 的 
因素 ， 称 为 “ 米 ”(entropy)。 由 各 种 中 断 源 产 生 的 中 断 请 求 在 时 间 上 大 多 是 相当 随机 的 ， 吕 以 用 米 作 
为 这 样 的 随机 因素 。 所 以 Linux 内 核 提 供 了 一 种 于 段 ， 使 得 可 以 根据 中 断 发 生 的 时 间 米 引入 一 点 随机 
性 。 戎 要 华 某 个 中 断 请求 队 列 ， 或 者 说 中 断 请 求 通道 中 引入 这 种 随机 性 时 ， 可 以 企 凋 用 人 参数 irqflags 中 
将 标志 位 SA SAMPLE RANDOM 设 成 1。 而 这 里 调用 的 rand_initialize_irq( ) 就 握 此 为 该 中 断 请 求 队列 
初始 化 个 数据 结构 ， 几 来 记录 该 中 断 的 时 序 。 

可 想 而 知 ， 对 于 中 断 请 求 队列 的 操作 当然 不 允许 受到 十 扰 ， 必 须要 在 临界 区 内 进行 ， 不 光 中 断 要 
关闭 ， 还 要 防止 可 能 米 日 其 他 处 理 器 的 十 扰 。 代 码 中 986 行 的 spin_lock_irgsave( )5 f CPU 进入 了 这 
样 的 临界 区 。 我 们 将 在 本 书 下 册 “ 多 处 理 器 SMP 结构 ”一 章 中 介绍 和 讨论 spin_lock_irqsave( )， 与 之 
相对 的 spin_unlock_irqrestore( ) 则 是 临界 区 的 出 口 。 

对 第 一 个 加 入 队列 的 irqaction 结构 的 处 理 比 较 简 单 〈1003 行 )， 不 过 此 时 要 对 队列 的 头 部 进行 一 
些 初 始 化 (1006~ 1008 行 )， 包 括 调用 本 队列 的 startup 盟 数 。 对 于 后 米 加 入 队列 的 irqaction 结构 则 要 
稍 加 检查 ， 检 查 的 内 容 为 是 否 允 许 共用 一 个 中 上 通道 ， 只 有 在 新 加 入 的 结构 以 及 队列 中 的 第 一 个 结构 
部 允许 共用 时 才 将 其 链 入 队列 的 尾部 。 

在 内 核 中 ， 设 备 张 动 程序 一 般 都 此 通过 request_irq( ) 向 系统 登记 其 中 断 服 务 程序 。 


34 中断 的 响应 和 服务 


WI 1386 CPU 的 中 断 机 制 和 内 核 中 有 关 的 初始 化 以 后 ， 我 们 就 可 以 从 中 断 清 求 的 发 生 到 CPU 
的 响应 ， 再 到 中 斯 服务 程序 的 调用 与 返回 ， 洛 着 CPU 所 经 过 的 路 线 走 一 遍 。 这 样 ， 隐 可 以 弄 清 利 理解 
Linux 内 核对 中 断 响应 和 服务 的 总 体 的 格局 和 安排 ， 还 可 以 顺 郑 这 个 过 程 介绍 内 核 小 的 一 些 相 关 的 “ 基 
础 设施 ”对 此 二 者 的 了 解 和 理解， 有 助 才 读 者 对 整个 内 核 的 理解 。 
这 里 ， 我 们 假定 外 说 的 驱动 程序 都 已 经 完成 了 人 急 始 化 ， 并 且 已 把 相应 的 中 断 服务 程序 持 入 到 特定 
的 中 断 清 求 队列 中 ， 系 统 止 在 用 户 空 间 止 芝 运 行 〈 所 以 中 断 必然 是 开 着 的 )， 并 用 其 个 外 设 已 经 产 牛 了 
次 中 断 请 求 。 该 请 求 通过 中 断 控 制 瞧 18259A 到 达 了 CPU W "Brick" 引线 INTR。 由 十 由 出 [是 开 
者 的 ， 所 以 CPU 在 执行 完 当 前 指令 后 就 来 响应 该 次 中断 请 求 。 
CPU 从 中 断 控制 器 取得 中 断 闪 量 , SR Js RR Hs RUE n Br p] c AA HP p] Sce IDT 中 找到 相应 的 表 项 ， 
而 谱 表 项 应 该 是 一 个 中 断 门 。 这 样 ，CPU 距 根 据 中 断 门 的 设置 而 到 达 了 该 通道 的 总 服务 程序 的 入 口 ， 
假定 为 IRQOx03_interrup. HIF Pate CPU 在 用户 空间 中 运行 时 发 生 的 ， 当 前 的 运行 级 乔 CPL 为 3; 
而 中 断 服务 程序 属 手 内核， 其 运行 级 别 DPL 为 0， 一 者 不 同 。 所 以 ，CPU BMAF TR 所 指 的 当前 
TSS 中 取出 用 于 内 核 (0 级 ) 的 堆栈 指针 ， 并 把 堆栈 切换 到 内 核 堆 栈 ， 即 关 前 进 各 的 系统 罕 间 堆栈 。 应 
沪指 出 ，CPU 每 次 使 用 内 核 堆 栈 时 对 堆栈 所 作 的 操作 总 是 均衡 的 ， 所 以 每 次 从 系统 空间 返 同 到 用 户 空 
AUS HERR Et EIS E. du. BRED "HERUESUU. 也 就 是 说 ， 当 CPU 从 TSS 中 取出 内 核 堆 栈 指 针 并 
切换 到 内 核 堆 栈 时 ， 这 个 堆栈 一 定 是 空 的 。 这样， 当 CPU 进入 TRQOx03_interrupt BY, ENG PBR Sf FEAR 
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EFLAGS 的 内 容 以 及 返回 地 址 外 就 一 无 所 有 了 。 男 外 ， 由 十 所 穿 过 的 是 中 断 门 OAD, Bred 
中 断 已 被 关 断 ， 在 重新 开局 中 断 之 有 再 没有 其 他 的 中 断 可 以 发 生 了 。 

中 断 服 务 的 总 入 门 IRQOxYY interrupt. 的 代码 以 前 已 经 见 到 过 了 ， 但 为 方便 起 见 再 把 它 询 出 在 这 
里 。 再 说 ， 我 们 现在 的 认识 也 可 以 史 深 入 ~ 些 了 。 

如 前 所 述 ， 所 有 公用 中 断 请 求 的 服务 程序 总 入 口 是 由 gee 的 预 处 理 阶段 生成 的 ， 全 部 都 共有 相同 
的 模式 : 


asm _( V 
NN 
^IRQ0x03 interrupt: \n\t” \ 
"pushl $0x03-256 \n\t” \ 
“jmp common interrupt”); 


这 上 段 程序 的 目的 在 于 将 -… 个 与 中 断 请 求 号 相关 的 数值 压 入 堆栈 ， 使 得 在 common. interrupt 中 可 以 
通过 这 个 数 但 来 确定 该 次 中 断 的 来 源 。 可 是 为 什么 要 从 中 断 请 求 号 0x03 FRE 256 使 其 变 成 负数 呢 ? 
就 用 数值 0x03 不 是 更 直截了当 吗 ? 这 是 因为 ,系统 堆栈 中 的 这 个 位 置 在 因 系 统 调用 而 进入 内 核 时 要 用 
来 存放 系统 调用 号 ， 而 系统 调用 又 与 中 断 服务 共用 一 部 分 子 程序 。 这 样 ， 就 要 有 个 手段 来 加 以 区 分 。 
当然 ， 要 区 分 系统 调用 号 和 中 断 请 求 号 并 不 非得 把 其 中 之 一 变 成 负数 不 可 。 例 如 ， 在 中 断 请 求 号 上 加 
E 个 常数 ， 比 方 说 0x1000， 也 可 以 达到 目的 。 但 是 ， 如 果 考 虑 到 运行 时 的 效率 ， 那 么 把 其 中 之 一 变 
成 负数 无 疑 足 效率 最 高 的 。 将 : -个 整数 效 入 到 一 个 通用 寄存 器 之 后 ， 要 判断 狐 是 否 大 丁 等 丁 0 是 很 方 
便 的 ， 只 要 一 条 寄存 器 指令 就 可 以 了 ， 如 “orl %%eax, S%eax” HK “testl %%ecx, %%ecx” 部 可 以 达 
到 上 月 的 。 而 如 采 此 与 另 一 个 常数 相 比较 ， 那 就 至 少 要 多 访问 次 内 企 。 从 这 个 例 了 也 可 以 看 出 ， 内 核 
中 的 有 些 代 码 看 似 简单 ， 好 像 只 是 作者 随意 的 决定 ， 但 实际 上 却 是 经 过 精心 推 项 的 。 

公共 的 跳 转 目 标 common_interrupt( ) 是 在 include/asm-i386/hw_irg.h 中 定义 的 : 


[IRQOx03_interrupt -> common interrupt] 


152 #define BUILD COMMON IRQ( ) \ 
153 asmlinkage void call. do IRQ(void); ^ 


154 . asm (V 

155 "wn" — ALIGN STR An” \ 

156 "common interrupt:MnMt" \ 
157 SAVE ALL X 

158 “pushl $ret_from_intr\n\t” \ 


159 SYMBOL NAME STR(call do IRQ)”:\n\t” \ 
160 " jmp "SYMBOL. NAME STR(do IRQ)); 
161 


这 里 主要 的 操作 是 宏 操作 SAVE_ALL,， WER "DEOS. JEFE RER A PUR SERI A A 
都 保存 在 堆栈 中 ， 待 中 断 服 务 完 毕 要 返回 之 前 再 来 “恢复 现场 ?。SAVE_ALL 的 定义 在 arch/i386/ 
kernel/entry.S 中 : 


86 #define SAVE ALL \ 
87 cld; ^ 
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88 pushl *&es; V 

89 pushl %ds; V 

90 push] %eax: ^ 

91 push] *Xebp; X 

92 pushl %edi; \ 

93 pushl %esi; \ 

94 pushl %edx; ^ 

95 pushl %ecx; \ 

96 pushl %ebx; \ 

97 movl $(__KERNEL_DS), %edx; V 
98 mov] %edx, %ds; V 
99 movl %edx, %es; 


这 里 要 指出 两 点 : 第 -一 是 标志 位 寄存 器 EFLAGS 的 内 容 并 不 是 在 SAVE, ALL 中 保存 的 , 这 是 因为 
CPU 在 进入 中 断 服 务 时 已 经 把 它 的 内 容 连 同 返 岂 地 址 一 起 压 入 堆栈 了 。 第 二 是 段 寄存 器 DS 和 ES 原来 
的 内 容 被 保存 在 堆栈 中 ， 然 后 就 被 改 成 指 站 用 于 内 核 的 _KERNEL_DS。 我 们 在 第 2 章 中 讲 过 ， 
__KERNEL_DS 和 __USER_DS 都 指向 从 0 开始 的 空间 ， 所 不 同 的 只 是 运行 级 别 DPL 一 个 为 0 级 ， 另 
一 个 为 3 级 。 人 至 于 原来 的 堆栈 段 寄 存 器 SS 种 堆栈 指针 SP 的 内 容 ， 则 或 者 已 被 压 入 堆栈 (如果 更 换 堆 
HO, 或 者 继续 使 用 而 无 需 保存 (“如果 不 更 换 堆栈 )。 这 样 ， 在 SAVE_ALL 以 后 ， 堆 栈 中 的 内 容 就 成 为 
图 3.6 形式 。 


| 












用 户 堆 栈 指针 








返回 地 十 


称 为 orig_eax (Oringinal eax 2) 


系统 堆栈 指针 


图 3.6 进入 中 断 服务 程序 时 系统 堆栈 示意 图 


此 时 系统 堆栈 中 各 项 相对 于 堆栈 指针 的 位 置 如 图 3.6 所 未 ， 而 arch/i386/kernelentry.S 中 也 根据 这 
HOR REM J He: 
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50 EBX = 0x00 
51 ECX - 0x04 
52 EDX = 0x08 
53 ESI = 0x0C 
54 EDI = 0x10 
9D EBP = 0x14 
96 EAX = 0x18 
of DS = 0x1C 
58 ES = 0x20 
59 ORIG_EAX = 0x24 
60 ElP = 0x28 
61 Cs = 0x2C 
62 EFLAGS = 0x30 
63 OLDESP = 0x34 
64 OLDSS = 0x38 


这 里 的 EAX， 举 例 来 说 ， 当 出 坝 在 entry.S 的 代码 中 时 并 不 是 表示 寄存 器 %%eax， 而 是 表示 该 寄存 
器 的 内 容 在 系统 堆栈 中 的 位 置 相 对 于 此 时 的 堆栈 指针 的 位 移 。 前 面 在 转 入 common_interrupt Z AIEA 
堆栈 的 《中 断 调 用 号 一 256》 所 在 的 位 置 称 为 ORIG_EAX， 对 中 断 服务 程序 而 言 名 代表 着 中 断 请 求 吕 ， 

回 到 common interrupt 的 代码 。 在 SAVE, ALL 以 后 ， 又 将 一 个 程序 标 写 (入口 ) ret. from intr Ee 
入 堆栈 ， 并 通过 jmp 指令 转 入 另 BRIEF do_IRQ( )。 读 者 可 能 已 注意 到 ，IRQ0x03._interrrupt 和 
common. interrupt AJA ELMAR RR, CMA return 相当 的 指令 ， 所 以 从 common, interrupt 不 能 
返回 到 IRQOx03_interrupt， 而 从 IRQOx03_interrupt 也 不 能 执行 中 断 返回 。 可 是 ，do_IRQK ) 却 是 一 个 函 
数 。 所 以 ， 在 通过 jmp 指令 转 入 do_IRQ() 之 前 将 返回 地 址 ret from intr 压 入 堆栈 就 模拟 了 一 次 函数 调 
用 ， 仿 佛 对 do_IRQ( ) 的 调用 就 发 生 在 CPU 进入 ret. from intr 的 第 一 条 指令 前 夕 一 样 。 这 样 ， 当 从 
do_TRQO) 返 回 时 就 会 “返回 ”到 ret. from. intr 继续 执行 。do_IRQ( ) 是 在 arch/i386/kernel/irq.c 中 定义 的 ， 
我 们 先 来 看 开头 几 行 : 


[IRQ0x03. interrupt -> common, interrupt -> do. IRQ( )] 


543 /* 

544 * do IRQ handles all normal device IRQ's (the special 
545 * SMP cross-CPU interrupts have their own specific 

546 * handlers). 

547 — */ 

548 asmlinkage unsigned int do IRQ(struct pt regs regs) 

549 { 

550 /* 

551 * We ack quickly, we don’t want the irq controller 

552 * thinking we re snobs just because some other CPU has 
553 * disabled global interrupts (we have already done the 
554 * INT ACK cycles, it's too late to try to pretend to the 
555 * controller that we aren't taking the interrupt). 

556 * 

557 * 0 return value means that this irq is already being 
558 * handled by some other CPU. (or is disabled) 
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559 */ 

560 int irq = regs. orig eax & Oxff; /* high bits used in ret from code */ 
561 int cpu = smp processor id( ); 

562 irq desc t *desc = irq desc + irq; 

563 struct irgaction * action; 

564 unsigned int status; 

565 


EK BT US FH SUE ^ pt regs 数据 结构 。 注意, 这 是 个 数据 结构 ， 而 不 赴 指 问 数 据 结构 的 指针 。 
也 就 赴 说 ， 在 堆栈 中 的 返回 地 址 以 二 的 位 置 上 应 该 是 一 个 数据 结构 的 喘 象 。 数 据 结 构 struct pt regs 是 
fF. include/asm-i386/ptrace.h 中 定义 的 : 


23 /* this struct defines the way the registers are stored on the 
24 stack during a system call. */ 
25 

26 struct pt regs { 

27 long ebx; 

28 long ecx; 

29 long edx: 

30 long esi; 

31 long edi; 

92 iong ebp; 

33 long eax; 

34 int xds; 

35 int xes; 

36 long orig eax; 

37 long eip; 

38 int xcs; 

39 long eflags; 

40 long esp; 

41 int xss; 

42  ] 


相信 读者 一 定 会 联想 到 前 面 讲 过 的 系统 堆栈 的 内 容 并 且 懂 然 大 悟 :原来 前 面 所 做 的 一 切 , 包括 CPU 
在 进入 中 世 时 自动 做 的 , 实际 上 都 是 在 为 do_IRQ( ) 建 立 一 个 模拟 的 子 程序 调用 坏 境 , 使 得 在 do IRQ) 
中 轻 可 以 方便 地 知道 进入 中 断 前 夕 各 个 寄存 器 的 内 容 ， 又 可 以 在 执行 客 毕 后 返回 到 ret from intr, 2F B. 
从 那里 执行 中 断 返 回 。 可 想 而 知 ， 当 do IRQ, ) 调 用 具体 的 中 断 服务 程序 时 也 一 定 会 把 pt_regs 数据 结 
构 的 内 容 传 下 去 ， 不 过 那 时 只 要 传 一 个 指针 语 够 了 。 读 者 不 妨 回 顾 一 下 我 们 在 第 2 BP A 
常服 务 程序 do_page_fauit( )， 其 调用 参数 表 为 : 


asmlinkage void do page fault(struct pt regs *regs, unsigned long error code); 


第 一 个 参数 就 是 指向 struct pt regs 的 指针 ， 实 际 上 就 是 指向 系统 堆栈 中 的 那 块 地 方 。 当 时 我 们 无 
法 将 这 一 点 讲 清楚 ， 所 以 略 了 过 去 。 而 现在 结合 进入 中 断 的 过 程 一 看 就 清楚 了 。 不 过 ， 员 和 而 异常 并 不 
属于 通用 的 中 靳 请 求 ， 而 是 为 CPU 保留 专用 的 ， 所 以 中 断 发 生 时 并 不 经 过 do RQ ) 这 条 路 线 ， 但 是 


- 213. 


Linux 内 核 源 代码 情景 分 析 ‘上册 )》 
对 寺 系 统 堆栈 的 这 种 安排 基本 上 是 BUA). 

以 后 读者 还 会 看 到 ， 对 系统 堆栈 的 这 种 安排 不 光 用 于 中 断 ， 还 用 于 系统 调用 。 

前 面 讲 过 ， 在 IRQOxO3. interrupt 中 把 数值 (0x03 一 2$6) 压 入 堆栈 的 目的 是 使 得 在 公共 的 中 断 处 理 
程序 中 可 知道 中 断 的 来 源 ， 坝 在 进入 do_IRQ( ) 以 后 的 第 件 事 就 是 些 弄 清 这 一 点 。 以 IRQ3 为 例 ， 压 
入 堆栈 的 数值 为 0xffffff03， 现 在 通过 regs.orig_eax 读 回 来 并 且 把 敲 位 屏蔽 掉 ， 开 又 得 到 0x03. HF 
do_IRQ( ) 仅 用 于 中断 服 务 ， 所 以 不 需要 兢 及 系统 调用 时 的 情况 。 

RASH 561 行 的 smp_processor_id( ) 是 为 多 处 埋 器 SMP 结构 出 设 的 ,在 单 处 理 器 系统 中 总 是 返回 0。 
现在 ， 既 然 中 断 请求 号 已 经 恢复 ， 从 数 纽 irq_descl ] 中 找到 相应 的 中 断 请 求 队列 当然 是 轻而易举 的 了 

(562 行 )。 下 面 就 是 对 具体 中 断 请 求 队列 的 操作 了 。 我 们 继续 在 do_IRQ( ) 中 往 下 看 : 


[IRQOx03_interrupt -> common interrupt -> do IRQ( )] 
566 kstat. irqslcpu] Lira] ^4; 


567 spin lock (&desc-?lock) ; 
568 desc-^handler-^ack(irq); 


569 /六 

570 REPLAY is when Linux resends an IRQ that was dropped earlier 
571 WAITING is used by probe to mark irgs that are being tested 
572 */ 


573 status = desc->status & "(IRQ REPLAY | TRQ WAITING) ， 
574 status |= IRQ PENDING; /* we want to handle it */ 


515 

576 /* 

577 * If the JRQ is disabled for whatever reason, we cannot 
578 * use the action we have. 

579 */ 

580 action = NULL; 

581 if ( (status & (TRQ DISABLED | IRQ INPROGRESS))) { 

582 action = desc—>aclion; 

583 status &= “IRQ PENDING: /* we commit to handling */ 
584 status |= IRQ INPROGRESS; /* we are handling it */ 
585 } 

586 desc-^5status = status; 

587 


当 通 过 中 断 门 进入 中 断 服 务 时 ，CPU 的 中 断 响应 机 制 就 日 动 被 关 断 了 。 既 然 已 经 关闭 小 断 ， 为 什 
么 567 行 还 要 调用 spin_lock( ) 吉 锁 呢 ? 这 是 为 多 处 理 器 的 情况 而 设 览 的 ， 我 们 将 在 “多 处 理 器 SMP 系 
RARE" o : 章 中 讲述 ， 这 里 暂且 只 考虑 单 处 理 器 结构 。 

中 断 处 理 器 《如 i8259A) 在 将 中 断 请 求 “ 上 报 ” 到 CPU 以 后 ， 期 待 CPU 给 它 一 个 确认 ACK)， 
表示 “我 已 经 在 处 理 ”， 这 里 的 568 行 就 是 做 这 件 事 。 对 函数 指针 desc->handle->ack 的 设置 前 而 已 经 讲 
过 。 从 569 行 至 S86 行 主 要 是 对 desc->status， 即 中 断 通 道 状 态 的 处 理 和 设置 ， 关 键 在 于 将 其 
IRQ INPROGRESS 标志 位 设 成 1， 而 将 IRQ_PENDING 标志 位 清 0。 其 中 IRQ_INPROGRESS X EE 
为 多 处 理 器 设置 的 ， 而 TIRQ_PENDING 的 作用 则 下 面 就 会 看 到 : 


[IRQOx03_interrupt -> common interrupt -> do IRQ( )] 
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588 /* 

589 * If there is no IRQ handler or it was disabled, exit early. 
590 Since we set PENDING, if another processor is handling 

591 a different instance of this same irq, the other processor 
592 will take care of it. 

593 */ 

594 if (laction) 

595 goto oul; 

596 

597 [* 

598 * Edge triggered interrupts need to remember 

599 * pending events. 

600 * This applies to any hw interrupts that allow a second 

601 * instance of the same irq to arrive while we are in do IRQ 
602 * or in the handler. But the code here only handles the _second_ 
603 * instance of the irq, not the third or fourth. So it is mostly 
604 * useful for irg hardware that does not mask cleanly in an 
605 * SMP environment. 

606 */ 

607 for (ey d 

608 spin unlock (&desc-?lock); 

609 handle [RQ event (irg, &regs, action); 

610 spin lock(&desc-^lock); 

611 

612 if (!(desc-^status & IRQ PENDING) ) 

613 break; 

614 desc >status &- “IRQ PENDING: 

615 } 

616 desc->status &- “IRQ INPROGRESS; 

617 out: 

618 /* 

619 * The ->end( ) handler has to deal with interrupts which got 
620 * disabled while the handler was running. 

621 */ 


622 desc->handler->end (irq); 
§23 spin unlock (&desc->lock) ; 


旭 果 其 一 个 中 断 请 求 队列 的 服务 是 关闭 着 的 〈IRQ_DISABLED 标志 位 为 1)， 或 者 
IRQ INPROGRESS 标志 位 为 1， 或 者 队列 是 空 的 ， 堵 么 指针 action A NULL (UL 580 和 582 行 )， 无 法 
往 下 执行 了 ,， 所 以 只 好 返回 。 但 是 , 在 这 几 种 情况 下 desc->status 中 的 IRQ_PENDING 标志 为 1 CJ, 574 
和 583 行 )。 这 样 ， 以 后 妾 CPU《〈 在 多 处 理 器 系统 结构 中 有 可 能 是 另 一 个 CPU) JT REA FUIS MC AS ET, 
会 在 介 这 个 标志 位 而 补 上 一 次 路 断 服务 ， 称 为 “IRQ_REPLAY "。 身 如果 队列 是 空 的 ， 浊 么 整个 通道 也 
必然 是 关 着 的 ， 因 为 这 是 在 将 第 一 个 服务 程序 挂 入 队列 时 才 和 开启 的 。 所 以 ， 这 两 种 情形 实际 上 相同 。 
最 后 一 种 情况 是 服务 已 经 开启， 队列 也 不 是 空 的 ， 品 是 IRQ_INPROGRESS 标志 为 1。 这 只 有 在 册 种 情 
形 下 才 会 发 生 。 -种 情形 是 在 多 处 理 器 SMP 系统 结构 中 ， 一 个 CPU 正在 中 断 服务 ， 出 另 一 个 CPU X. 
进入 了 do_IRQ( )， 这 时 候 由 于 队 例 的 IRQ_INPROGRESS 标志 为 1 而 经 595 行 返 同 ， 此 时 desc->status 
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中 的 IRQ_PENDING 标志 位 也 是 1。 第 2 种 情形 是 侍 单 处 理 器 系统 中 CPU 山 经 在 中 断 服 务 程 序 小 ,但 
EARP RAMA PRIA T. MAZE) 个 中 断 遂 道中 又 产生 了 一 次 中 断 。 在 这 种 情形 下 后 面 发 牛 
HUE RISE ULP IRQ INPROGRESS 标志 为 1 而 经 595 行 返回 ， 但 也 是 将 desc->status 的 
IRQ PENDING 置 成 为 1. 总之， 这 册 种 情形 下 最 后 的 结果 也 契 PE. BD desc->status 中 的 
IRQ_PENDING 标志 位 为 1。 

那么 ，IRQ_PENDING 标志 位 到 底 是 怎样 起 作用 的 呢 ? 请 看 612 和 613 两 行 。 这 是 在 一 个 无 限 for 
循 坏 中 ， 有 具体 的 中 断 服务 是 在 609 行 的 handle IRQ event( ) 中 进行 的 。 在 进入 609 行 时 ，desc->status 
中 的 IRQ PENDING 标志 必然 为 0。 当 CPU 完成 了 具体 的 中 断 服 务 返 回 到 610 行 以 后 ， 如 果 这 个 标志 
位 仍然 为 0， 那 么 循环 就 在 613 行 结束 了 。 而 如 有 果 变 成 了 1， 那 就 说 明 己 经 发 牛 过 前 述 的 其 种 情况 ， 所 
LAM Mi IBI 609 行 再 服务 一 次 。 这 样 ， 就 把 本 米 可 能 发 生 的 在 同一 通道 上 《〈 甚 全 可 能 来 自 可 中断 
源 ) 的 中 斯 嵌 信 化解 成 为 “个 循环 。 

这 样 ， 回 … 个 中 断 通 道上 的 中 断 处 理 就 得 到 了 严格 的 “品行 化 ”。 也 左 是 说 ， 对 十 同一 个 CPU 而 
言 不 允许 中 断 服务 嵌 套 ， 而 对 于 不 同 的 CPU 则 不 允许 并 发 地 进入 同一 个 中 断 服务 程序 。 如 果 不 是 这 样 
处 理 的 话 ， 那 就 费 求 所 有 的 中 断 服务 程序 都 必需 是 “可 重 入 ”的 “ 纯 代 码 ” 那样 就 使 中 斯 服务 程序 的 
设计 和 实现 复杂 化 了 了。 这 么 一 套 机 制 的 设计 和 实现 ， 不 能 不 说 是 非常 周到 、 非 常 蕊 妙 的 。 出 Linux 的 
稳定 性 和 可 靠 性 也 正 是 植 根 于 这 种 从 Unix 时 代 继 戎 下 来 、 并 经 过 时 间 考 验 的 设计 中 。 当 然 ， 在 极端 的 
情况 卜 ， 也 有 可 能 会 发 生 这 样 的 情景 : 中 断 服 务 程 序 中 心 是 把 中 断 打 开 ， 而 中 断 源 又 不 断 地 产生 中 断 
请 求 ， 使 得 CPU 每 次 从 handle_IRQ_event( ) 返 回 时 IRQ PENDING 标志 永远 是 1， 从 而 使 607 行 的 for 
循环 变 成 一 个 真正 的 “无 限 ” 循 坏 。 如 果真 的 发 生 这 种 情况 而 得 不 到 纠正 的 话 ， 那 么 该 中 断 服务 程序 
的 作者 应 该 男 请 高 屿 了 。 

还 要 指出 ， 对 desc->status 的 任何 改变 都 是 在 加 锁 的 情况 下 进行 的 ， 这 也 是 出 于 对 多 处 理 器 SMP 
系统 结构 的 考虑 。 | 

Ba, EMAR. VRAD PARSE IRIN, BLE TWAT IK "AR 
中 断 服务 ”操作 (622 77), RARA T Pare aR TASER, BEAD AY BS SC E BA EIN E 
置 好 的 。 

HA Li for 循环 中 调用 的 handle JRQ_event( )， 这 个 函数 依次 执行 队 询 中 的 各 个 中 断 服 务 种 序 ， 
让 它们 汐 认 本 次 中 渐 请 求 是 人 盏 来 目 各 日 的 服务 对 和 象 ， 即 中 断 源 ， 如 果 是 就 进而 提供 相应 的 服务 。 其 代 
ft TE irg.c H: 


[TRQ0x03_interrupt -> common, interrupt -> do. IRQ( ) > handle [RQ event( )] 


418 /* 

419 * This should really return information about whether 

420 * we should do bottom half handling etc. Right now we 

421 * end up always checking the bottom half, which is a 

422 * waste of time and is not what some drivers would 

423 * prefer. 

424 */ 

425 int handle IRQ event (unsigned int irg, struct pt regs * regs, 
struct irqaction * action) 

426 { 

427 int status; 
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428 int cpu = smp_processor_id{ ); 

429 

430 irq enter(cpu, irq); 

431 

432 status = 1; /* Force the "do bottom halves” bit */ 
433 

434 if (! (action->flags & SA INTERRUPT)) 

435 = stif); 

436 

437 do { 

438 status |= action->flags: 

439 action->handler(irg, action->dev_id, regs); 
440 action = action—>next; 


441 ) while (action); 
442 if (status & SA SAMPLE RANDOM) 


443 add interrupt randomness (ira) ; 
444 — elit ); 

445 

446 irq exit(cpu, irq); 

447 

448 return status; 

49  ] 


其 中 430 行 的 irq_enter( ) 和 446 行 的 irq exit( ) 只 是 对 一 个 计数 器 进行 操作 ， 二 者 均 定义 于 
include/asm-i386/hardirg.h: 


34 #define irq enter (cpu, irq) (++local irq count[cpu]) 
35 #define irq exit(cpu, irq) (--local irq count[epu]) 


HAARE AE 0 时 就 表示 CPU 正 处 寺 具 体 的 中 断 服 务 程序 中 ， 以 后 读者 会 看 到 有 些 操作 
是 不 允许 在 此 期 问 进行 的 。 

一 般 来 说 ， 中 断 服务 程序 都 是 在 关闭 中 断 (不 包括 “不 可 屏蔽 中 断 ”NMI) 的 条 件 下 执行 的 ， 这 
也 是 CPU 在 穿越 中 断 门 时 自动 关中 断 的 拓 因 。 但 是 ， 关 中 断 是 个 既 不 可 不 用 ， 又 不 可 浇 上 用 的 手段 ， 特 
别 是 当中 断 服 务 程 序 较 长 ， 拘 作 比 较 复 杂 时 ， 就 有 吕 能 因 关 闭 中 断 的 时 间 持 续 太 长 而 玉 失 其 他 的 中 断 。 
经 验 表 明 ， 人 允许 中 断 让 回 个 中 断 源 或 同 “个 中 断 通道 租 套 是 应 该 避免 的 ， 因 此 内 核 在 do_IRQ( ) 中 通 
过 IRQ_PENDING 标志 位 的 运用 来 保证 了 这 :点 。 可 是 ， 人 允许 中 断 在 不 同 的 通道 上 嵌 套 ， 则 只 更 处 理 
得 当 就 还 是 品行 的 。 当 然 ， 必 须 十 分 小 心 。 所 以 ， ALAA request_irg( ) 将 一 个 中 断 服务 程序 挂 入 某 个 中 
断 服 务 队 你 时 ， 人 允许 将 参数 irqflags 中 的 “个 标志 位 SA_INTERRUPT 置 成 0， 表示 该 服务 程序 应 沪 在 
开局 中 断 的 情况 卜 执 行 。 这 里 的 434—435 行 和 444 行 就 是 为 此 而 设 的 〈_sti( ) 为 开 中 断 ，_clig ) 为 关中 
Wi) 

然后 ， 从 437 行 至 441 行 的 do. while EHRE KATEHET o EUR AFA BASIE RE n 
服务 程序 。 调 用 的 参数 有 一 : irq 为 中 断 请 求 号 ，action->dev_id 是 个 void 指针 ， 由 具体 的 服务 程序 
自行 解释 和 运用 , 这 是 出 设备 驱动 程序 在 调用 request_irq( ) 时 自己 规定 的 ; 最 后 一 个 就 是 前 述 的 pt_regs 
数据 结构 指针 regs 了 。 至 于 具体 的 中 断 服 务 程 序 ， 彤 是 设备 驱动 范 晨 内 的 东西 ， 这 里 就 不 讨论 了 。 
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读者 或 许 会 问 ， 如 果 中 斯 请 求 队列 路 有 多 个 服务 程序 存在 ， 每 次 有 来 自 这 个 通道 的 中 浙 请 求 时 就 
要 依次 把 队列 中 所 有 的 服务 程序 依次 都 执行 一 遍 ， 邓 非 使 效率 大 降 ? 回答 是 : 确实 会 有 所 下 降 ， 但 不 
会 严重 。 首 先 ， 在 每 个 具体 的 中 断 服务 程序 中 都 应 该 ‘通常 部 确实 是 ) 一 开始 就 检查 各 自 的 中 断 源 ， 
一 般 是 读 相应 设备 《接口 本 上 》， 的 中 断 状 态 寄存 器 ， 看 是 否 有 来 自 该 设备 的 中 断 请 求 ， 如 没有 就 马上 
返 问 了 ， 这 个 过 程 一 般 只 需要 几 条 机 器 指令 ; 其 次 ， 每 个 队列 中 服务 程序 的 数量 一 般 也 不 会 太 大 。 所 
以 ， 实 际 上 不 会 有 显著 的 影响 。 

iia, Æ 442 至 443 行 ， 如 果 队 询 中 的 某 个 服务 程序 要 为 系统 引入 一 些 随 机 性 的 话 ， 就 调用 
add interrupt randomness( ) 来 实现 。 有 关 详 情 在 设备 驱动 一 章 中 还 会 讲 到 。 

从 handle_IRQ_event( ) 返 回 的 status 的 最 低位 必然 为 1， 这 是 仕 432 行 设置 的 。 代 码 中 还 为 此 加 了 
HEE RE (418—424 行 ;， 其 作 几 在 看 了 下 出 这 RUSH. RAEE CPU HE do_IRQ( ) 中 继续 


[IRQ0x03_interrupt -> common, interrupt -> do IRQ( )] 


625 if (softirq active(cpu) & softirq mask(cpu)) 
626 do softirq( ); 

627 return 1: 

628 } 


到 624 TUE. MERDA BE DOM PIA AR SEDET Osc, URUT. Al Linux 内 核 
在 这 里 有 个 特殊 的 考虑 , 这 就 是 所 谓 softirg, HO“ CZEIN TR] 上) 软 性 的 中 断 请 求 ” 以 前 称 为 “bottom half”. 
在 Linux 中 ， 设 备 驱 动 程序 的 设计 人 员 可 以 将 中 断 服务 分 成 两 “ 半 ” 其 实 是 两 “部 分 ” 而 并 不 GE 
是 两 “ 半 ?”。 第 一 部 分 是 必须 立即 执行 ， 一 般 是 在 关中 断 条 件 下 执行 的 ， 并 上 日 必 须 是 对 每 次 请 求 都 单独 
执行 的 。 而 另 一 部 分 ， 即 “后 半 ” 部 分 ， 是 可 以 稍 后 在 开 中 条 件 于 执行 的 ， 并 月 往往 可 以 将 若干 次 中 
断 服 务 中 剩 下 来 的 部 分 合并 起 来 执行 。 这 些 操作 往往 是 比较 费时 的 ， 因 而 不 延 宜 在 关中 断 条 件 下 执行 ， 
或 者 不 适宜 一 次 占据 CPU 时 间 太 长 而 影响 对 其 他 中 断 请求 的 服务 。 这 就 是 所 谓 的 “后 半 ”(bottom 
halif)， 在 内 核 代 码 中 常 简称 为 bb。 作为 一 个 比喻 ， 读 者 不 妨 想 像 在 “cooked mode” 下 从 键盘 输入 字符 . 
串 的 过 程 ( 详 见 设备 驱动 )， 每 当 按 一 个 键 的 时 候 ， 首 先 要 把 字符 读 进 来 ， 这 要 放 在 “前 半 ” 中 执行 ， 而 
进一步 愉 查 所 按 的 是 否 “ 同 车 ” 键 ， 从 而 决定 是 否 完 成 了 一 个 字符 趾 的 输入 ， 并 进一步 把 睡眠 中 的 进 
程 唤醒 ， 则 可 以 放 在 “后 半 ” 中 执行 。 

执行 bh 的 机 制 是 内 核 中 的 一 项 “基础 设施 ”所 以 我 们 在 下 一 节 间 独 加 以 介绍 。 这 里， 读者 暂且 
REMI Aix RESET T o 

£t do_softirg( ) 中 执行 完 相关 的 bh KA n RARE) Wa, ET MA do_JRQ() 返 同 的 时 候 了 。 
返回 到 哪里 ? entry.S 中 的 标号 ret from intr 处， 这 是 内 想 中 处 心 积 处 安排 好 了 的 。 其 代码 在 
arch/i386/kernel/entry.S "P: 


[IRQOxO3 interrupt -> common interrupt -> ... -> ret from intr] 


273 ENTRY (ret_from_intr) 
214 GET. CURRENT (%ebx) 


275 movl EFLAGS Gesp), %eax # mix EFLAGS and CS 
276 movb CS (esp), %al 
277 testl $(VM MASK | 3), %eax # return to VM86 mode or non-supervisor? 


- 218 . 


T8 33x 中 断 、 晃 常 和 系统 调用 


278 jne ret_with_reschedule 
279 jmp restore_all 
280 


这 里 的 GET_CURRENT(%ebx) 将 指向 当前 进程 的 task_struct 结构 的 指针 置 入 寄存 器 EBX. 275 行 
和 276 行 则 在 寄存 内 EAX 中 拼凑 起 由 中 断 前 多 寄 存 器 EFLAGS 的 高 16 位 和 代码 段 寡 存 器 CS 的 C16 
M) 内 容 构成 的 32 位 长 整数 。 其 日 的 是 要 检验 : 

e FAIS CPU 是 合 运行 于 VM86 模式 。 

e 中 断 前 夕 CPU 运行 于 用 户 空 间 还 是 系统 空间 。 

VM86 模式 是 为 在 1386 保护 模式 下 模拟 运行 DOS 软件 而 设置 的 。 在 寄存 器 EFLAGS 的 高 16 位 中 
有 个 标志 位 表示 CPU 上 在 VM86 模式 小 运行 ， 我 们 对 VM86 模式 不 感 兴趣 ， 所 以 不 予 深究 。 而 CS 的 
最 低 两 位 ， 那 就 有 文章 了 。 这 两 位 代表 着 中 断 发 生 时 CPU 的 运行 级 别 CPL。 我 们 知道 Linux 只 采用 两 
种 运行 级 别 ， 系 统 为 0O， 用 户 为 3。 所 以 ， 若 是 CS 的 最 低 两 位 为 砷 0， 邦 就 说 明 中 断 发 咎 于 用 户 空间 ， 

ME F F, 275 行 的 EFLAGS (56 esp) 表示 地 址 为 堆栈 指针 % esp 的 当前 值 如 上 常数 EFLAGS 
处 的 内 容 , 这 就 是 保存 在 堆栈 中 的 中 断 前 夕 寄存 器 %eflags HAA. 常数 EFLAGS 我 们 已 经 在 前 面 介绍 
过 ， 其 值 为 0x30。276 行 中 的 CS (hesp) 也 是 一 样 。 

如 有 果 中 断 发 生 于 系统 空间 , 控制 就 直接 转移 到 restore. all, 而 如 果 发 生 于 用 户 空间 (或 YM86 模式 ) 
则 转移 到 ret_with_reschedule。 这 里 我 们 假定 中 断 发 咎 于 用 户 空 间 ， 因 为 从 ret_with_reschedule BAUR 
会 到 达 restore all. iX BETTE [8]- -文件 (entry.S) 中 : 


[IRQOx03 interrupt -> common interrupt -> ... -> ret from intr -> ret_with_rescheduke] 


217 ret_with_reschedule: 
218 empl $0, need_resched (%ebx) 


219 jne reschedule 
220 cmpl $0, sigpending (%ebx) 
221 jne signal_return 


222 restore all: 
223 RESTORE ALL 


224 

225 ALIGN 

226 signal return: 

221 sti # we can get here from an interrupt handler 


228 test] $(VM MASK), EFLAGS (%esp) 
229 movl %esp, %eax 

230 jne v86 signal return 

231 xorl %edx, %edx 

232 call SYMBOL NAME (do. signal) 
233 jmp restore all 


ZE, AMA am eT ARW. Lord 04£8£3| FER EBX 中 的 内 容 就 是 当前 
进程 的 task. struct 结构 指针 ， 而 need_resched(%ebx) 就 表示 该 task_struct 结构 中 位 移 为 need_resched 处 
的 内 容 。220 行 的 sigpending(9ebx) 也 是 一 样 。 常 数 need_resched 和 sigpending 的 定义 为 : (Jil entry.S) 
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71 /* 

12 * these are offsets into the task-struct. 
73 */ 

74 state = 0 

75 flags = 4 

76 sigpending = 8 

T7 addr_limit = 12 

78 exec_domain = 16 


79 need resched = 20 


如 果 当 前 进程 的 task. struct 结构 中 的 need_resched 学 段 为 非 0， 即 表示 需要 进行 调度 ，reschedule 
也 在 arch/i386/kernel/entry.S 中 : 


(IRQOx03_interrupt -> common interrupt -> ... -> ret, from intr -> ret_with_rescheduke -> reschedule] 


287 reschedule: 
288 call SYMBOL NAME (schedule) # test 
289 jmp ret from sys call 


程序 在 这 里 调用 .个 函数 schedule( ) 进 行 亩 度 ， 然 后 又 转移 到 ret_from_sys_call。 我 们 将 在 系统 调 
用 一 节 中 再 加 讨论 。 全 于 schedule( ) 则 在 进程 一 章 中 介绍 ， 这 里 我 们 暂且 假定 不 需要 调度 。 读 者 以 后 会 
看 到 ， 如 果 要 调度 的 话 ， 从 ret from sys call 处 经 过 一 段 略为 曲折 的 道路 最 终 也 会 到 达 restore_all。 

同样 ， 如 果 当 前 进程 的 task. struct 结构 中 的 sigpending 字段 为 非 0， 就 表示 该 进程 有 “信和 号” 等待 
处 理 ， 要 先 处 理 了 这 些 待 处 理 的 信号 才 最 后 从 中 断 返 回 ， 所 以 先 转移 到 226 行 。 在 228 行 处 先 区 分 是 
否 VM86 模式 ， 然 后 将 寄存 器 %edx 的 内 容 清 0 (231 行 ) 再 调用 do_signal( )。“ 信 号 (signal)” 基 本 上 | 
是 -- 种 进程 间 通 信 的 于 段 ， 我 们 将 在 “进程 间 通信 ”一 章 中 加 以 介绍 。 处 理 完 信号 以 后 ， 控 制 还 是 回 
到 222 行 的 restere_all。 实 际 上 ，ret_from_sys_call 最 后 还 回 到 ret_from_intp 最 终 殊途同归 部 会 到 达 
restore_all, 并 从 那里 执行 中 断 返 回 。 宏 操作 RESTORE_ ALL 的 定义 也 在 同一 文件 (entry.S) 中 : 


101 Hdefine RESTORE ALL \ 
102 popl *ebx; 
103 pop! %ecx; 
104 popl %edx; 
105 popl %esi; 
106 popl %cdi ; 
107 popl %ebp; 
108 popl %eax; 
109 1: popl %ds; 
110 2: popl %es; 
111 addl $4, %esp; 
112 3: iret; 


-一 一 一 一 一 


GE o eft a c em 


显然 ， 这 是 与 进入 内 核 时 执行 的 宏 操 作 SAVE. ALL 到 相对 应 的 。 为 方便 读者 加 以 对 照 ， 我 们 再 把 
SAVE. ALL (entry.S) 列 出 在 这 时 : 
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86 &define SAVE ALL \ 


87 eld; ^ 

88 pushl %es; ^ 

89 pushl *ds; \ 

90 pushl %eax: ^ 

9] pushl %ebp; ^ 

92 pushl %edi; \ 

93 pushl %esi; \ 

94 pushl %edx; \ 

95 pushl %ecx; \ 

96 pushl %ebx; ^ 

97 movl $( | KERNEL DS), *edx; V 
98 movl 9*edx,9ds; V 
99 movl %edx, es; 
100 


为 什么 在 RESTORE ALL 的 111 行 要 将 堆栈 指针 的 当前 值 加 4? 这 是 为 了 跳 过 ORIG_EAX， 那 是 
在 进入 中 断 之 初 压 入 堆栈 的 中 断 请 求 号 (经 过 变形 )。 我 们 已 经 看 到 在 do IRQC ) 中 的 第 --- 件 事 就 是 从 
中 取出 其 最 低 8 位 ,然后 以 此 为 下 标 从 irq desc ] 中 找到 相应 的 中 断 服务 描述 结构 。 以 后 在 讲述 系统 调 
用 和 寞 常 时 读者 会 进一步 看 到 其 作用 。 读 者 也 许 会 问 : 那 为 什么 不 像 对 堆栈 中 的 其 他 内 容 一 样 也 使 用 
popl 指令 呢 ? 是 的 , 在 正常 的 情况 下 确实 应 该 使 用 popl 指令 , 但 是 popl 指令 … 定 是 与 一 个 寄存 器 相 联 
系 的 ， 现 在 所 有 的 寄存 器 都 已 占 满 了 ， 还 能 popl 到 哪儿 去 呢 ? 

这 样 ， 当 CPU BUA 112 行 的 iret 指令 时 ， 系 统 堆栈 又 恢复 到 刚 进入 中 断 门 时 的 状态 ， 而 iret 则 使 
CPU 从 中 断 返回 。 跟 进入 中 断 时 相对 应 ， 如 果 是 从 系统 态 返回 到 用 户 态 就 会 将 当前 堆栈 切换 到 用 户 堆 
栈 。 


35 A? BS Bottom Half 


中 断 服务 一 般 都 是 在 将 中 断 请 求 关 闭 的 条 件 下 执行 的 ， 以 避免 嵌 套 而 使 控制 复杂 化 。 可 是 ， 如 果 
关中 断 的 时 间 持 续 太 长 就 可 能 因为 CPU 不 能 及 时 响应 其 他 的 中 断 请 求 而 使 中 斯 〈 请 求 ) 丢失 ， 为 此 ， 
内 核 允许 在 将 具体 的 中 断 服 务 程序 挂 入 中 断 请 求 队列 时 将 SA_INTERRUPT 标志 置 成 0, 使 这 个 中 断 服 
务 程序 在 开 中 的 条 件 下 执行 。 然 而 ， 实 际 的 情况 往往 是 ， 若 在 服务 的 全 过 程 关 中 断 则 “扩大 打击 面 ”， 
向 全 程 开 中 则 又 造成 “不 安定 因素 ”很 难 取 舍 。 一般 来 说 , 一 次 中 断 服 务 的 过 程 常常 可 以 分 成 两 部 分 。 
开头 的 部 分 往往 是 必须 在 关中 断 条 件 下 执行 的 。 这 样 才 能 在 不 受 干扰 的 条 件 下 “原子 ”地 完成 一 些 关 
键 性 操作 。 同 时 ， 这 部 分 操作 的 时 间 性 又 往往 很 强 ， 必 须 在 中 断 请 求 发 生 后 “立即 ”或 至 少 是 在 一 定 
的 时 间 限 制 中 完成 ， 而 且 相 继 的 多 次 中 断 清 求 也 不 能 合并 在 一 起 来 处 理 。 而 后 半 部 分 ， 则 通常 可 以 、 
而 且 应 该 在 开 中 条 件 下 执行 ， 这 样 才 不 全 于 因 将 中 断 关 闭 过 久 而 造 成 其 他 中 断 的 丢失 。 同 时 ， 这 些 操 
作 和 常常 多 许 延 迟到 稍 后 才 来 执行 ， 而 且 有 可 能 将 多 次 中 断 服务 中 的 相关 部 分 合并 在 一 起 处 理 。 这 些 不 
同 的 性 质 营 背 使 中 断 服务 的 前 后 两 半 明 显 地 区 分 开 来 ， 可 以 、 而 且 应 该 分 别 加 以 不 同 的 实现 。 这 里 的 
后 半 部 分 就 称 为 “bottom haif”， 在 内 核 代 码 中 常常 缩写 为 bh。 这 个 概念 在 相当 程度 上 米 白 RISC 系统 
结构 。 在 RISC 的 CPU 中 ， 通 常 都 有 大 量 的 寄存 器 。 当 中 断 发 生 时 ， 要 将 所 有 这 些 寄存 器 的 内 容 都 止 
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入 堆栈 ， 并 在 返回 时 加 以 恢复 ， 为 此 而 付出 很 高 的 代价 。 所以， 在 RISC 结构 的 系统 中 往往 把 中 断 服 务 
分 成 由 部 分 。 第 一 部 分 只 保存 为 数 不 多 的 寄存 器 〈 内 容 )， 并 利用 这 为 数 不 多 的 寄存 器 来 完成 有 限 的 关 
键 性 的 操作 ， 称 为 “ 轻 量 级 中 断 “。 侧 另 一 部 分 ， 那 就 相当 于 这 申 的 bh Te A 1386 的 结构 主要 是 
CISC 的 ， 面 临 的 问题 不 尽 相 同 ， 但 前 述 的 问题 已 经 使 bh 的 必要 性 在 许多 情况 下 变 得 很 明 电 了。 
Linux 内 核 为 将 中 断 服 务 分 成 两 半 提 供 了 方便 ， 并 设立 了 相应 的 机 制 。 在 以 前 的 内 核 中 ， 这 个 机 制 
就 称 为 bb。 但 是， 在 2.4 版 〈 确 切 地 说 是 2.3.43) 中 有 了 新 的 发 展 和 推广 。 
以 前 的 内 核 中 设置 了 一 个 函数 指针 数组 bh_base[ ]， 其 大 小 为 32, 数组 中 的 每 个 指针 串 以 用 来 指 丫 
:个 具体 的 bh 函数 。 同 时 ， 又 设置 了 两 个 32 位 无 符号 整数 bh_active 和 bh_mask， 每 个 无 符 吉 整数 中 
的 32 位 对 应 着 数组 bh, basef ] 中 的 32 个 元 素 。 
我 们 可 以 在 中 断 与 bh :者 之 间 建 立 起 一 种 类 比 。 
(1) H bh base[ ] 相 当 于 硬件 中 断 机 制 中 的 数组 irq_desc[ ]。 不 过 irq_desc[ ] 中 的 每 个 元 素 代表 
着 一 个 中 断 遂 道 , 所 以 是 一 个 中 断 服务 程序 队列 。 而 bh_basef ] 中 的 得 个 元 素 却 最 多 只 能 代表 
一 个 bh 函数 。 但 是 ， 尽 管 如 此 ， 二 者 在 概念 上 还 是 相同 的 。 

(2) 无 符号 整数 bh_active 在 概念 上 相当 于 硬件 的 “中 断 请 求 寄存 器 ”， 而 bh_mask 则 相当 于 “中 
LT at at”. 

(3) “需要 执行 -个 bh 函数 时 ， 就 通过 一 个 函数 mark. bh( ) 将 bh. active PIR :位 设 成 1, 相当 于 
中 断 源 发 出 了 中 断 请 求 ， 而 所 设置 的 具体 标志 位 则 类 似 于 “中 断交 量 ”。 

(4) 如 果 相 当 于 “中 断 屏 蔽 寄存 器 ”的 bh. mask 中 的 相应 位 也 是 1, 即 系统 允许 执行 这 个 bh 函数 ， 
那么 就 会 在 每 次 执行 完 do_IRQ() 中 的 中 断 服务 程序 以 后 ， 以 及 每 次 系统 调用 结束 之 时 , 在 
个 函数 do. bottom, half( ) 中 执行 相应 的 bh 函数 。 而 de_bottom_half( )， 则 类 似 于 do_IRQ(). 

为 了 简化 bh 函数 的 设计 ， 在 do_bottom_half( ) 中 也 像 do_IRQ( ) 中 一 样 ， 把 bh 函数 的 执行 严格 地 

“ 冲 行 化 ”了 。 这 种 串 行 化 有 两 方面 的 考虑 和 措施 : 

一 方面 ，bh 函数 的 执行 不 允许 嵌 套 。 如 有 果 在 执行 bh 函数 的 过 程 中 发 生 中 断 ， 那 么 由 于 每 次 路 断 服 
务 以 后 在 do_IRQ( ) 中 都 要 检查 和 处 理 bh 也 数 的 执行 ， 就 有 可 能 幅 套 。 为 此 ， 在 do_bottom_half( ) 中 人 针 
对 同一 CPU 上 的 媒 套 执行 加 了 锁 。 这 样 ， 如 果 进 入 do_bottom_half( ) 以 后 发 现 已 经 上 了 锁 ， 岗 立即 返 
回 。 因 为 这 说 明 CPU 在 本 次 中 断 发 生 之 及 已 经 在 这 个 函数 中 了 。 

另 一 方面 ， 是 在 多 CPU 系统 中 ， 在 同 - -时间 内 最 多 只 允许 一 个 CPU 执行 bh 函数 ， 以 防 有 两 个 其 
至 更 多 个 CPU 同时 来 执行 bh 函数 而 互相 和 干扰。 为 此 在 do_bottom_half( ) 中 针对 不 同 CPU 同时 执行 bh 
函数 也 加 了 锁 。 这 样 ， 如 果 进 入 do bottom half ) 以 后 发 现 这 个 锁 已 经 锁 上 ， 就 说 明山 经 有 CPU 在 执 
行 bh PRL, ATLA tH IZ BNI. 

这 两 条 措施 ， 特 别 是 第 二 条 措施 ， 保 证 了 从 单 CPU 结构 到 多 CPU SMP 结构 的 平稳 过 渡 。 可 是 ， 
在 当时 的 Linux 内 核 可 以 在 多 CPU SMP 结构 上 稳定 运行 以 后 ,就 慢 慢 发 现 这 样 的 处 理 对 于 多 CPU SMP 
结构 的 性 能 有 不 利 的 影响 。 原因 就 在 十 上 述 的 第 .条 措施 使 bh 函数 的 执行 完全 串 行 化 了 。 当 系统 中 有 
很 多 bh 函数 需要 执行 时 , 划 然 系统 中 有 多 个 CPU 存在 , 却 只 有 一 个 CPU 这 么 个 “独木桥 ”。 跟 do_IRQ() 
作 一 比较 就 可 以 发 现 ， 在 do_IRQ( ) 中 的 中 行 化 只 是 针对 一 个 具体 中 断 通 道 的 ， 而 bh KRAI P £746 
是 全 局 性 的 ， 所 以 是 “防卫 过 当 ” 了 。 既 然 如 此 ， 就 应 该 著 虑 放宽 上述 的 第 二 条 措施 。 但 是 ， 如 宁 放 
宽 了 这 一 条 ， 就 要 对 bh 函数 本 身 的 设计 和 实现 有 更 高 的 要 求 《 例 如 对 使 用 全 局 量 的 二 不)， 而 原来 已 
经 存在 的 bh 孙 数 显然 不 符合 这 些 要 求 。 所 以 ， 比 较 好 的 办 法 是 保留 bh， 另外 再 增设 种 或 几 种 机 制 ， 
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并 把 它们 纳入 一 个 统一 的 框 保 中 。 这 就 是 2.4 版 中 的 “ 软 中 断 ”(softirq》 机 制 。 

从 字面 上 说 softirq 就 是 软 中 斯 ， 可 是 “ 软 中 断 ” 这 个 词 〈 龙 其 是 在 中 文 里 ) 已 经 被 用 作 “ 信 和 号 ” 
(signal) 的 代名词 ， 因 为 信号 实际 上 就 是 “以 软件 于 段 实 现 的 中 断 机 制 ” 但 是 ， 另 一 方面 ， 把 类 似 
T bh 的 机 制 称 为 “ 软 中 断 ” 又 确实 很 贴切 。 这 - -方面 有 反映 了 上 述 bh 函数 与 中 断 之 间 的 类 比 ， 另 Jy 
面 也 反映 了 这 是 一 种 在 时 间 要 求 上 更 为 软 性 的 中断 请 求 。 实 际 上 ， 这 里 所 体现 的 是 层次 的 不 同 。 如 果 
说 “而 中 断 ” 通 常 是 外 部 设备 对 CPU 的 中 断 ， 那 么 softirq 通常 是 “ 硬 中 断 服务 程序 ”对 内 核 的 中 渐 ， 
而 “ 信 与 ” 则 是 由 内 核 (或 其 他 进程 对 菜 个 进程 的 中 断 。 后 面 这 :者 部 是 由 软件 产后 的 “ 软 中 断 ”。 
所 以 ， 对 “ 软 中 断 ” 这 个 词 的 含意 此 根据 上 下 文 加 以 区 分 。 

下 面 ， 我 们 以 bh 函数 为 主线 ， 通 过 阅读 代码 来 叙述 2.4 版 内 核 的 软 中 断 (softirqg) 机 制 。 

系统 在 初始 化 时 通过 水 数 softirq_init( ) 对 内 核 的 软 中 断 机 制 进行 初始 化 。 其 代码 在 kernel/softirq.c 


281 void | init softirq init( ) 
282 { 
283 int i; 


285 for (1-0; i432; i++) 
286 tasklet init(bh task vec*i, bh action, i); 


288 open softirq(TASKLET SOFTIRQ, tasklet action, NULL); 
289 open softirq(HI_SOFTIRQ, tasklet hi action, NULL): 
200 } 


软 中 断 本 身 是 一 种 机 制 ， 同 时 也 是 一 个 框架 。 在 这 个 框架 里 有 bh 机 制 ， 这 是 “种 特殊 的 软 中 断 ， 
也 可 以 说 是 设计 最 保守 的 ， 但 吉 是 最 简单 、 最 安全 的 软 中 断 。 除 此 之 外 ， 还 有 其 他 的 软 中 断 ， 定 义 十 


include/linux/interrupt.h: 


56 enum 

57 { 

58 HI SOFTIRQ=0, 
59 NET TX SOFTIRQ, 
60 NET RX SOFTIRQ, 
61 TASKLET SOFTIRQ 
62 }; 


这 里 最 值得 注意 的 是 TASKLET_SOFTIRQ, 代表 着 -种 称 为 tasklet 的 机 制 。 也 许 采 用 tasklet 这 个 
辐 的 原意 在 丁 表示 这 是 一 片 小 小 的 “任务 ”， 但 是 这 个 词 容易 使 人 联想 到 “task” 即 进程 而 引起 误会 ， 
其 实 这 二 者 坚 无 关系 。 显 然 , NET_TX_SOFTIRQ 和 NET_RX_SOFTIRQ 两 种 软 中 断 是 专 为 网 络 操作 而 
设 的 ， 所 以 在 softirq_init( ) 中 只 对 TASKLET_SOFTIRQ 和 HI, SOFTIRQ 两 种 软 中 断 进行 初始 化 。 

先 看 bh 机 制 的 初始 化 。 内 核 中 为 bh 机 制 设 置 了 一 个 结构 数组 bh task vec[ ]， 这 是 tasklet_struct 
数据 结构 的 数组 。 这 种 数据 结构 的 定义 也 在 interrupt.h 中 : 


97 . /* Tasklets --- multithreaded analogue of BHs. 
98 
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ain feature differing them of generic softirqs: tasklet 
s running only on one CPU simultaneously. 


ain feature differing them of BHs: different tasklets 
ay be run simultaneously on different CPUs. 


roperties: 

If tasklet schedule( ) is called, then tasklet is guaranteed 

to be executed on some cpu at least once after this. 

If the tasklet is already scheduled, but its excecution is still not 
started, it will be executed only once. 

If this tasklet is already running on another CPU (or schedule is called 
from tasklet itself), it is rescheduled for later. 

Tasklet is strictly serialized wrt itself, but not 

wrt another tasklets. If client needs some intertask synchronization, 

he makes it with spinlocks. 


struct tasklet_struct 


{ 


p 


struct tasklet struct **next; 
unsigned long state; 
atomic t count; 

void (func) (unsigned long); 
unsigned long data; 


代码 的 作者 加 了 详细 的 注释 ， 说 tasklet 是 “多 序 ”( 不 是 “多 进程 ”或 “多 线程 21) 的 bh 两 数 。 
WAIL We? 因为 对 tasklet 的 串 行 化 不 像 对 bh 函数 那样 严格 ， 所 以 允许 在 不 同 的 CPU 上 同时 执 
行 tasklet， 但 必须 是 不 同 的 tasklet。 一 个 tasklet_struct 数据 结构 就 代表 着 一 个 tasklet， 结 构 中 的 函数 指 
EF func 指向 其 服务 程序 。 那 么 ， 为 什么 在 bh 机 制 中 要 使 用 这 种 数据 结构 呢 ? 这 是 内 为 bh 函数 的 执行 
(并 不 是 bh 函数 本 身 ) 就 是 作为 - 个 tasklet 来 实现 的 ， 在 此 基础 上 再 加 上 更 严格 的 限制 ， 束 成 了 bh. 


函数 tasklet_init( ) 的 代码 在 kernel/softirq.c 中 : 


[softirq. init( ) > tasklet_init( )] 


203 
204 
205 
206 
207 
208 
209 
210 


void tasklet_init (struct tasklet_struct *t, 


{ 


} 
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void (*func) (unsigned long), unsigned long data) 


t-^func = func; 

t->data = data; 

t-^state = 0; 
atomic_set(&t->count, 0); 


在 softirg_init( ) 中 ， 对 用 于 bh 的 32 个 tasklet struct 结构 调用 tasklet_init( ) 以 后 ， 它们 的 函数 指针 
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func 全 都 指向 bh_action( ). 
对 其 他 软 中 断 的 初始 化 是 通过 open_softirq( ) 完 成 的 ， 其 代码 也 在 同一 文件 中 : 


[fsoftirq_init( ) > open_softirq( )] 


103 static spinlock t softirq mask lock = SPIN LOCK UNLOCKED; 

104 

105 void open softirq(int nr, void (*action) (struct softirq action*), 
void *data) 


106 { 

107 unsigned long flags; 

108 İnt i; 

109 

110 spin lock irqsave(&softirq mask lock, flags); 
111 softirq vec[nr]. data = data; 

112 softirq vec[nrl. action = action: 

113 

114 for (i=0; i<NR CPUS; i++) 

115 softirq mask (i) |= (1<<nr) ; 

116 spin unlock irgrestore(&softirq mask lock, flags); 
Hz 4 


内 核 中 为 软 中 断 设置 了 一 个 以 “ 软 中 断 号 ”为 下 标的 数组 softirq_vec[ ]， 类 似 于 中 断 机 制 中 的 
irq_desc[ ]。 


48 static struct softirq action softirq vec[32] cacheline aligned; 


这 起 个 softirg action 数据 结构 的 数组 ， 其 定义 为 : 


64 /* softirq mask and active fields moved to irq cpustat t in 


65 * asm/hardirq.h to get better cache usage. KAO 
66 */ 

67 

68 struct softirq action 

69 { 

10 void Ckaction) (struct softirq action *); 
11 void *data; 

127 ps 


数组 softirq_vec[ ] 是 个 全 局 量 ， 系 统 中 的 各 个 CPU 所 看 到 的 是 同一 个 数组 。 但 是 ， 每 个 CPU 各 有 
其 目 己 的 “ 软 中 断 控 制 /状况 结构 ” 所 以 这 些 数据 结构 形成 一 个 以 CPU 编号 为 下 标的 数组 irq_stat[ ] 。 
这 个 数组 也 是 全 局 量 ， 但 是 各 个 CPU 可 以 按 其 白 身 的 编号 访问 相应 的 数据 结构 。 我 们 把 有 关 的 定义 列 
出 于 下 ， 供 读者 自己 阅读 : 


8 /* entry.S is sensitive to the offsets of these fields */ 
9 typedef struct { 
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10 unsigned int __ softirg active; 

11 unsigned int __softirq_mask; 

12 unsigned int __local_irq_count; 

13 unsigned int __local_bh_count; 

14 unsigned int ^ syscall count; 

15 unsigned int nmi count;  /* arch dependent */ 
16 ) |  cacheline aligned irq cpustat t; 


45 irq cpustat t irq stat[NR CPUS]; 


22 tifdef CONFIG SMP 

23 Hdefine IRQ STAT(cpu, member) (irq stat[cpu]. member) 

24 Helse 

25 Sdefine IRQ STAT(cpu, member) ((void) (cpu), irq stat[0]. member) 
26 #endif 


27 

28 /* arch independent irg_ stat fields */ 

29 Hdefine softirq active(cpu) | IRQ STAT((cpu), | softirq active) 
30 Hdefine softirq mask(cpu) __IRQ STAT((cpu), | softirq mask) 


数据 结构 中 的 __softirq_active 相当 于 “ 软 中 断 请 求 寄存 器 ” __softirq_mask MXF “HRP RTE 
We HESS”, ee BC open_softirg( ) 除 把 函数 指针 action HA softirq_vec[ ] 中 的 相应 元 素 外 ， 偿 把 所 有 CPU 
的 “中 断 屏 项 寄存 器 ”中 的 相应 位 设置 成 1， 使 这 个 软 中 断 在 每 个 CPU 上 都 可 以 执行 。 从 softirq init() 
中 调用 open_softirq( ) 把 TASKLET_SOFTIRQ 和 HI SOFTIRQ 两 种 软 中 断 的 处 理 程 序 分 别 设置 成 
tasklet_action( ) 和 tasklet hi action( )。 

内 核 中 还 有 另 一 个 以 CPU 编号 为 下 标的 数组 tasklet_hi_vec[ ]， 这 是 tasklet_head 结构 数组 ， 每 个 
tasklet head 结构 就 是 一 个 tasklet_struct 结构 的 队列 头 。 


167 struct tasklet head tasklet hi vec[NR CPUS] __cachelinc_aligned; 


139 struct tasklet head 

140 { 

141 struct tasklet struct *list; 

142 } attribute  (( aligned  (SMP CACHE BYTES))); 


加 到 bh 机 制 这 个 话题 上 。 通 过 tasklet_init( ) 只 是 使 相应 tasklet struct 结构 中 的 函数 指针 func HFFA 
f bh action( )， 也 就 是 建立 了 bh 的 执行 机 制 ， 而 县 体 的 bh 函数 还 没有 与 之 挂钩 ， 就 好 像 具 体 的 中 断 
服务 程序 尚未 挂 入 中 断 服务 队列 RE. ALOK bh 函数 是 通过 init_bh( ) 设 置 的 。 下 面 是 取 日 sched_init( ) 
中 的 一 个 片段 (kernel/sched.c): 


1260 init bh(TIMER BH, timer bh); 
1261 init bh(TQUEUE BH, tqueue bh); 
1262 init bh(IMMEDIATE BH, immediate bh); 


以 用 于 时 钟 中 断 的 bh 函数 timer. bh()2g Bl, 3E “bh 向 景 ” eX “bh 编号 ”为 TIMER BH. AHA 
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核 中 已 经 定义 的 编号 如 下 (include/linux/interrupt.h): 


24 /* Who gets which entry in bh base. Things which will occur most often 
25 should come first */ 


26 

27 enum { 

28 TIMER_BH = 0， 
29 TQUEUE BH, 

30 DIGI BH, 

31 SERIAL BH, 

32 RISCOMS HII, 
33 SPECIALIX BH, 
34 AURORA BH, 

35 ESP BH, 

36 SUSI BH. 

37 TMMEDIATE BH, 
38 CYCLADES BH, 
39 CM206 RH, 

40 JS. BH, 

41 MACSERTAL RH, 
42 ISICOM BH 

43. HH 


FRG init_bh( ) 的 代码 ， 这 是 在 kernel/softirq.c 中 : 


269 void init_bh(int nr, void (*routine) (void)) 


210 { 

271 bh_base[nr] = routine; 
272 mb( ); 

273 } 


显然 ， 这 里 的 数组 bh_basef[ ER ERG E A. AE A mb) CPU 中 执行 指令 
Hj "URKE£EU AO. MAAPERE ROH. 

r5 ee DUTT — TREE bh 函数 时 ， 可 以 通过 个 inline 函数 mark. bh ) 提 出 请 求 。 读 者 在 “时 钟 中 
断 ” 一 节 中 可 以 看 到 在 do_timer( ) 中 通过 “mark_bh(TIMER_BH);” 提 出 对 timer. bh MUTI. BR 
数 mark. bh( ) 的 代码 在 include/linux/interrupt.h 中 !: 


232 static inline void mark bh(int nr) 


233 | 
234 tasklet hi schedule(bh task vectnr); 
235- 本 


gna ATA, AURA bh 函数 的 执行 设立 了 一 个 tasklet struct 结构 数组 bh task vec[ ], XX UA bh 
PRI] Sa SADR pas at EL d SIR DY ILLUS SS KJ. SE ACU AH. tasklet hi schedule( )， 其 代码 也 在 
include/linux/interrupt.h 中 。 读 者 应 该 还 记得 ， 在 bh task vec| | 的 每 个 tasklet_struct HF, E BRET 
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func 都 指向 bh_action( )。 


{mark_bh( } > tasklet hi schedule( )] 


171 static inline void tasklet hi schedule (struct tasklet struct *t) 


172 ( 

173 if (1test and set bit(TASKLET STATE SCHED, &t~>state)) { 
174 int cpu = smp processor id( ); 

175 unsigned long flags; 

176 

177 local irq save(flags); 

178 t->next = tasklet_hi_vec[epu]. list; 
179 tasklet hi vec[cpu]. list = t; 

180 |. epu raise softirq(cpu, HI SOFTIRQ); 
181 local irq restore(flags); 

182 } 

183  ] 


这 里 的 smp. processor, id( ) 返 回 当前 进程 所 在 CPU 的 编号 ， 然 后 以 此 为 下 标 从 tasklet hi. vec[ ] 中 
找到 该 CPU 的 队列 头 ， 把 参数 1 所 指 的 tasklet_struct 数据 结构 链 入 这 个 队列 。 由 此 可 见 ， 对 执行 bh ER 
数 的 要 求 是 在 哪 一 个 CPU 上 提出 的 ， 就 把 它 “ 调 度 ” 在 哪 一 个 CPU ERIT, ARARA “schedule” 
就 是 这 个 意思 ， 而 与 “进程 调度 ” 毫 无 关系 。 另 一 方面 ， 一 个 tasklet struct 代表 着 对 bh 函数 的 一 次 执 
行 ,在 同一 时 间 内 只 能 把 它 链 入 个 队列 中 , 而 不 可 能 同时 出 现任 多 个 队列 中 .对 于 同一 个 tasklet_struct 
数据 结构 ， 如 果 已 经 对 其 调用 了 tasklet hi schedule( )， 而 尚未 得 到 执行 ， 就 不 允许 再 将 其 链 入 队列 ， 
所 以 在 数据 结构 中 设置 了 一 个 标志 位 TASKLET. STATE SCHED 来 保证 这 一 点 。 最 后 ， 还 要 通过 
__cpu_raise_softirq( ) 正 式 发 出 软 中 断 请 求 。 


[mark_bh( ) > tasklet_hi_schedule( ) > __ cpu raise softirq( )] 


77 static inline void | cpu raise softirq(int cpu, int nr) 
78 { 

79 softirq active(cpu) |= (1<<nr); 

80  ] 


读者 在 前 面 已 经 看 到 过 softirq_active( ) 的 定义 ， 它 对 给 定 CPU 的 “ 软 中 断 控 制 /状况 结构 ”操作 ， 
将 其 中 __softirq_active 字段 内 的 相应 标志 位 设 成 1。 

内 核 每 当 在 do_IRQ() 中 执行 完 一 个 通道 中 的 中 断 服 务 程 序 以 后 ， 以 及 等 当 从 系统 调用 返回 时 ， 阐 
要 检查 是 否 有 软 中 断 请 求 在 等 待 执行 。 下 面 是 do_ 了 RQ() 中 的 一 个 片段 : 


625 if (softirg active(cpu) & softirq mask (cpu) ) 
626 do softirq( ); 


另 一 段 代 码 取 自 arch/i386/entry.S， 这 是 在 从 系统 调用 返回 时 执行 的 : 
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ENTRY (ret_from sys_call) 
#ifdef CONFIG SMP 
movl processor (%ebx), %eax 
shll $CONFIG X86 L1 CACHE SHIFT, %eax 
movl SYMBOL NAME (irq stat) (, %eax), %ecx # softirq active 
testl SYMBOL NAME (irgq_stat)+4(, %eax),%ecx # softirq mask 
Helse 
movl SYMBOL NAME (irq stat), %ecx # softirq active 
testl SYMBOL NAME(irq stat)+4, %ecx # softirq mask 
#endif 
jne handle_softirq 


handle_softirq: 
call SYMBOL NAME(do softirq) 


jmp ret from intr 


注意 ， 这 里 的 processor 表示 task struct 数据 结构 中 该 字段 的 位 移 ， 所 以 207 行 是 从 当前 进程 的 


task. struct 数据 结构 中 取 当 前 CPU 的 编号 。 而 SYMBOL_NAME(irq_stat)(,%eax) U4] 24 F irq_stat[cpu], 


XH 
TB 


是 其 中 第 -一 个 字段 ， 相 应 地 ，SYMBOL_NAME(irq_stat)+4(,9eax) 相当 这 个 数据 结构 中 的 第 二 个 
， 并 且 第 一 个 字段 必须 是 32 位 。 读 者 不 妨 回 过 去 看 一 下 irq cpustat t [E Xo, TA BANER, 


说 entry.S 中 的 代码 对 这 个 数据 结构 中 的 字段 位 置 敏感 ， 就 是 这 个 意思 。 所 以 ， 这 些 汇编 代 碍 实际 上 与 
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do IRQ KPIT C 代码 是 一 样 的 。 
检测 到 软 中 断 请 求 以 后 ， 就 要 通过 do_softirq( ) 加 以 执行 了 。 其 代码 在 kernel/softirq.c 中 : 


asmlinkage void do softirq( ) 


{ 
int cpu = smp_processor_id( ); 
__u32 active, mask; 


if (in interrupt ( )) 
return; 


local bh disable( ); 


local irq disable( ); 
mask = softirq_mask (cpu) ; 
active = softirq active(cpu) & mask; 


if (active) { 
struct softirq action *h; 


restart: 
/* Reset active bitmask before enabling irqs */ 
softirq active(cpu) &= "active; 


local irq enable( ); 
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72 

73 h = softirq_vec; 

74 mask &- "active; 

75 

76 do { 

77 if (active & l) 

78 h-»action(h); 

19 h++， 

80 active >>= 1; 

81 } while (active); 

82 , 

83 local irq disable( ); 

84 

85 active = softirq active (cpu) ; 

86 if ((active & mask) != 0) 

87 goto retry; 

88 } 

89 

90 local bh enable( ); 

9] 

92 /* Leave with locally disabled hard irqs. It is critical to close 
93 * window for infinite recursion, while we help local bh count, 
94 * it protected us. Now we are defenceless. 
95 */ 

96 return; 

97 

98 retry: 

99 goto restart; 

100 } 


软 中 断 服务 程序 既 不 允许 在 一 个 硬 中 断 服务 程序 内 部 执行 ， 也 不 允许 在 一 个 软 中 断 服务 程序 内 部 
执行 ， 所 以 要 通过 一 个 宏 操 作 in_interrupt( ) 加 以 检测 ， 这 是 在 include/asm-i386/hardirg.h 中 定义 的 : 


20 /* 

21 * Are we in an interrupt context? Either doing bottom half 
22 * or hardware interrupt processing? 

23 */ 

24 #define in interrupt( ) ({ int __cpu = smp processor id( ); V 
25 (local irq count( cpu) + loeal bh count( cpu) != 0); }) 


显然 ， 这 个 测试 防止 了 软 中 断 服 务 穆 序 的 嵌 套 ， 这 就 是 前 面 讲 的 第 :条 串 行 化 措施 。 与 
local_bh_disable( ) 有 关 的 定义 在 include/asm-i386/softirg.h 中 


7 Hdefine cpu bh disable(cpu) do { local bh count(cpu)++; barrier( ); } 
while (0) 

8 H#define cpu bh enable(cpu) do { barrier( ); local bh count (cpu)--; } 
while (0) 
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9 
10 #define local bh disable( ) cpu bh disable(smp processor id( )) 
ll #define local bh enable( ) cpu bh enable(smp processor id( )) 


从 do_softirq ) 的 代码 中 辣 以 看 出 ， 使 CPU 不 能 执行 软 中 断 服务 程序 的 “关卡 ”只 有 一 个 ， 那 就 是 
in interrupt( )， 所 以 对 软 中 断 服务 程序 的 执行 并 没有 采取 前 述 的 第 二 条 串 行 化 措施 。 这 就 是 说 ， 不 同 的 
CPU 可 以 同时 进入 对 软 中 断 服 务 程序 的 执行 ( 见 78 行 )， 分 别 执行 各 白 所 请 求 的 软 中 断 服 务 。 从 这 个 
意义 上 ， 软 中 断 服务 程序 的 执行 是 “并 发 ”的 、 多 序 的 。 但 是 ， 这 些 软 中 断 服 务 程 序 的 设计 和 实现 必 
须 十 分 小 心 ， 不 能 让 它们 互相 干扰 《例如 通过 共享 的 全 局 量 )。 伞 于 do sofürq( ) 中 其 他 的 代码 ， 则 读 
EDRR, RAREN T. 

在 我 们 这 个 情景 中 ， 如 脐 所 述 ， 执 行 的 服务 程序 为 bh_action( )， 其 代 个 在 kernel/softirg.c 中 : 


[do softirq( ) > bh_action( )] 


235 /* BHs are serialized by spinlock global bh lock. 








236 

237 It is still possible to make synchronize bh( ) as 
238 spin unlock wait(&global bh lock). This operation is not used 
239 by kernel now, so that this lock is not made private only 
240 due to wait on irq( ). 

241 

242 It can be removed only after auditing all the BHs. 
243 */ 

244 spinlock_t global bh lock = SPIN LOCK UNLOCKED; 

245 

246 static void bh_action (unsigned long nr) 

247 {f 

248 int cpu = smp processor id( ); 

249 

250 if (!spin trylock(&global bh lock)) 

251 goto resched; 

252 

253 if (!hardirq trylock(cpu)) 

254 goto resched unlock; 

255 

256 if (bh base[nr]) 

257 bh base[nr] ( ) ; 

258 

259 hardirq, endlock (cpu) : 

260 spin unlock(&global bh lock); 

261 return; 

262 

263 resched unlock: 

264 spin unlock(&global bh lock); 

265 resched: 

266 mark bh(nr); 
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267 } 


这 里 对 具体 bh 函数 的 执行 ( 见 257 行 ) 又 设置 了 两 道 关 卡 。 一 道 是 hardirq_trylock( ), 其 定义 为 : 
31 #define hardirq trylock (cpu) (local irq count (cpu) == 0) 


与 前 面 的 in interrupt( ) 比 较 一 下 就 可 看 出 ， 这 还 是 在 防止 从 一 个 硬 中 断 服 务 程 序 内 部 调用 
bh_action( )。 而 另 -- 道 关卡 spin trylock( ) 就 不 同 了 ， 它 的 代码 在 include/linux/spinlock.h 中 : 


74 Hdefine spin trylock(lock) (!test_and_set_bit (0, (lock))) 


这 把 “ 锁 ” 就 是 全 局 量 global_bh_lock， 只 要 有 一 个 CPU 在 253 行 至 260 行 之 间 运 行 ， 别 的 CPU 
就 不 能 进入 这 个 区 间 了 ， 所 以 在 任何 时 间 最 多 只 有 一 个 CPU 在 执行 bh 函数 。 这 就 是 前 述 的 第 二 条 串 
行 化 措施 。 全 十 根据 bh 函数 编号 执行 相应 的 函数 ， 那 就 很 简单 了 。 在 我 们 这 个 情景 中 ， 具 体 的 bh K 
数 是 timer_bh( )， 我 们 将 在 “时 钟 中 断 ” 一 节 中 阅读 这 个 函数 的 代码 。 

作为 对 比 ， 我 们 列 出 另 个 软 中 斯 服务 程序 tasklet action( ) 的 代 色 ， 读 者 可 以 把 它 与 bh_action( ) 
比较 ， 看 看 有 哪些 重要 的 区 别 。 这 个 函数 的 代码 在 kemel/softirg.c "P: 


122 struct tasklet head tasklet vec[NR CPUS] __cacheline_aligned; 
123 
124 static void tasklet action(struct softirq action *a) 


125. 4 

126 int cpu - smp processor id( ); 

127 struct tasklet struct *list; 

128 

129 local irq disable( ) ; 

130 list = tasklet vec[cpu]. list; 

131 tasklet vec[cpu]. list - MULL; 

132 local irq enable( ); 

133 

134 while (list != NULL) | 

135 struct tasklet struct *t = list; 

136 

134 list = list->next; 

138 

139 if (tasklet trylock(t)) | 

140 if (atomic read(&t >count) == 0) ( 

141 clear bit (TASKLET STATE SCHED, &t->state) ; 

142 

143. t—>func (t->data) ; 

144 /水 

145 * talklet trylock( ) uses test and set bit that imply 
146 * an mb when it returns zero, thus we need the explicit 
147 * mb only here: while closing the critical section. 
148 */ 
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149 #ifdef CONFIG SMP 


150 smp mb before clear bit( ); 
151 #endif 

152 tasklet unlock(t); 

153 continue; 

154 } 

155 tasklet unlock (t); 

156 } 

157 local irq disable( ); 

158 t >next = tasklet vec(cpu]. list; 

159 tasklet vec[cpu]. list = t; 

160 epu raise softirq(cpu, TASKLET SOFTIRQ) ; 
161 local irq enable( ); 

162 ] 

163 ] 


最 后 ， 软 中 断 服 务 程 序 ， 包 括 bh 两 数 ， 与 常规 中 断 服 务 程序 的 分 离 并 不 是 强制 性 的 ， Se A 
驱动 的 具体 情况 也 许 还 有 设计 人 员 的 水 平 ) 来 决定 。 


36 ”页面 异常 的 进入 和 返回 


我 们 在 第 2 章 中 介绍 内 核对 页 面 异常 处 理 时 , 是 从 do_page_fault( ) 开 始 的 。 当 时 因为 尚未 介绍 CPU 
的 中 断 和 异常 机 制 ， 所 以 暂时 跳 过 了 对 页 面 寞 常 的 响应 过 程 ， 也 就 是 从 发 生 异 常人 宇 CPU 到 达 
do page fault( ) 之 间 的 那 … 段 路 程 ， 以 及 从 do_page_fault( ) 返 国之 后 到 CPU 返 国 到 用 户 空间 这 B 
程 。 现 在 ， 我 们 可 以 来 补 上 这 个 缺口 了 。 

与 外 设 中 渐 人 不 间 ， 各 种 异常 都 有 为 其 保留 的 专用 中 断 向 量 ， 内 此 相应 的 初始 化 也 是 直 礁 了 当 的 ， 
这 一 点 我 们 已 经 在 初始 化 ERST. 

为 页 面 异 常设 置 的 中 断 门 指向 程序 入 TI page fault C. IDT 初始 化 一 节 中 所 引 trap_init( ) 中 的 970 
行 )， 所 以 当 发 生 页 面 异 常 时 ，CPU 穿 过 中 汤 门 以 后 就 直接 到 达 了 page_fault( )。CPU 因 寞 常 而 穿 过 中 
灶 门 的 过 程 ， 包 插 境 栈 的 变化 ， 与 因 外 设 中 肠 身 引起 的 过 程 茜 本 上 是 一 样 的 ， 读 者 串 以 参阅 外 设 中 断 
一 节 。 人 9 是 ， 有 一 点 很 重要 的 不 同 。 当 中 渐 发 生 时 ，CPU 将 寄存 器 EFLAGS MAR, ARR AE! 
地 址 的 CS 和 EIP 两 个 寄存 器 的 内 容 压 入 堆栈 。 如 果 CPU 的 运行 级 别 发 生变 化 ， 则 在 此 之 前 还 要 发 生 
堆栈 的 切换 ， 并 且 要 把 代表 老 堆 栈 指 针 的 SS 和 ESP 的 内 容 讨 入 堆栈 。 这 一 点 ， 我 们 已 经 在 前 向 介绍 
过 了 。 当 异常 发 生 时 ， 人 在 上 述 这 些 操作 之 后 ， 还 要 加 上 附加 的 操作 。 那 就 是 ， 如 果 所 发 生 的 异常 产生 


的 技术 资料 或 相关 专著 ， 但 是 绝 人 多 数 寞 常 ， 包 括 我 们 这 里 所 关心 的 页 和 面 腊 常 是 会 产 牛 出 错 代 侣 的。 
而 且 ， 实 际 上 我 们 在 第 2 章 中 已 经 看 到 do_page_fault( ) 记 何 通过 这 个 出 错 代 舍 识 刊 发 生 有 异常 的 原因 。 
可 是 ，CPU 只 是 在 进入 异常 时 才 知 道 是 否 应 该 把 出 错 代 人 码 压 入 维 栈 。 向 从 异常 处 理 通过 iret 指令 返回 
时 己 经 时 过 境 迁 ，CPU 己 经 尤 从 知道 当初 发 生 异 常 的 原因 ， 因 此 不 会 目 动 跳 过 堆栈 中 的 这 一 项 ， 向 要 
靠 柑 应 的 寞 交 处 理 程序 对 堆栈 加 以 调整 ， 使 得 在 CPU 开始 执行 iret 指令 时 堆栈 项 部 是 返回 地 直 。 由 于 
这 个 不 同 ， 对 踢 常 的 处 理 和 对 中 断 的 处 理 在 代码 中 也 要 有 所 不 同 。 
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页 面 异常 处 理 的 入 口 page fault 是 在 arch/i386/entry.S 中 定义 的 : 


ENTRY (page_fault) 


pushl $ SYMBOL NAME(do page fault) 


jmp error code 


这 里 的 跳 转 有 cr 标 error. code 就 好 像 外 设 中 断 处 理 中 的 common, interrupt 一 样 ,是 各 种 异常 处 理 所 共 


用 的 程序 入 口 。 而 将 服务 程序 do. page. fault( ) 的 地 址 压 入 堆栈 ， 则 为 进入 具体 的 服务 程序 作 好 了 准备 。 
程序 入 口 error. code 的 代码 也 在 同一 文件 (entry.S) 中 : 


295 
296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 
308 
309 
310 
311 
312 
313 
314 
315 
316 
317 
318 
319 
320 
321 


error code: 


pushl %ds 

pushl %eax 

xorl %eax, %eax 

push] %ebp 

push? %edi 

pushl %esi 

pushl %edx 

decl %eax # eax 
pushl %ecx 

pushl %ebx 

cld 

movl %es, %ecx 

movl ORIG EAX(%esp), %esi 
movl ES(%esp), %edi 

movl %eax, ORIG EAX (hesp) 
movl %ecx, ES (%esp) 

movl %esp, %edx 


-1 


# get the error code 
# get the function address 


pushl %esi # push the error code 
pushl %edx # push the pt_regs pointer 


movi $( KERNEL DS), %edx 
movi %edx, %ds 

mov] %edx, %es 
GET_CURRENT (%ebx) 


“call *%edi 


addl $8, %esp 
jmp ret_from_exception 


读者 也 许 注意 到 了 ,这 里 并 不 像 进入 中 断 响 应 时 那样 引用 SAVE_ALL. 让 我 们 来 看 看 有 什么 区 草 ， 


以 及 为 什么 。 观 察 图 3.7， 我 们 把 CPU 执行 到 这 里 的 307 行 时 的 堆栈 (左边 ) 与 CPU 在 外 设 中 断 时 
SAVE ALL 以 后 的 堆栈 (右边 ) 作 一 比较 。 


顺便 提 一 下 ， 系 统 调用 时 的 雄 栈 在 执行 完 SAVE_ALL 以 后 与 图 3.7 的 右边 (中断) 几乎 完全 一 样 ， 


只 是 在 ORIG EAX 位 置 上 是 系统 调用 号 而 不 是 中 断 请 求 号 。 
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EFLAGS 
CS 
EIP 


出 错 代码 














ORIG_EAX (中 断 请 求 信号 ) 


























堆栈 指针 堆栈 指针 


图 3.7 异常 处 理 和 中 断 处 理 系 统 堆栈 对 照 图 


比较 之 后 ， 可 以 看 到 其 实 也 只 有 在 两 个 位 置 IB. 个 是 与 ORIG_EAX 对 应 的 位 置 上 , MAE 
CPU 在 发 生 异 常 时 讨 入 堆栈 的 出 错 代码 。 另 一 个 是 在 与 ES 相应 的 位 置 上 , 现在 是 do_page_fault( ) 的 入 
口 地 址 。 其 他 就 都 一 样 了 。 可 是 ， 下 面 会 将 堆栈 中 对 应 于 ORIG EAX 位 置 上 的 内 容 转 移 到 寄存 器 %esi 
中 ，; 并 将 其 替换 成 %eax PAAR. PER, RIS RSI T 9oesi 中 ， 而 堆栈 中 的 ORIG_EAX 就 变 
RT -1 (H 298 行 和 303 行 )。 同 时 ， 又 以 寄存 器 Wecx 的 内 容 替 换 堆栈 中 ES 处 的 函数 指针 ， 而 把 函 
数 指针 转移 到 寄存 器 %edi 中 。 在 此 之 前 的 307 行 已 经 将 Wes 的 内 容 装 入 了 %ecx， 所 以 在 311 行 以 后 函 
数 指针 do_page_faule( ) 在 %edi 中 ， 而 堆栈 中 变 成 了 寄存 器 %es 的 副本 。 至 此 ， 也 就 是 在 311 行 以 后 ， 
堆栈 的 内 容 与 中 断 或 系统 调 几 时 就 完全 FES, HE ORIG EAX 的 位 置 上 为 一 1。 这 么 一 来 ， 堆 栈 就 
调整 好 了 。 我 们 在 中 断 - 节 中 已 经 看 到 将 来 返回 时 在 RESTORE_ALL 中 会 把 ORIG_EAX 跳 过 去 。 

读者 也 许 会 问 : 那么 ， 对 于 不 产 牛 出 错 代码 的 异常 又 怎么 处 埋 呢 ? 很 简单 ， 在 进入 error code 之 


coprocessor_error: 


323 ENTRY (coprocessor error) 


324 pushl $0 
320 pushl $ SYMBOL NAME(do coprocessor error) 
326 jmp error. code 


这 里 多 了 fF “pushl $0", XO FRAGE Pe rP 5 EEA, HE CAE TET. 

回 到 前 面 error. code 的 代码 中 , 第 313 行 和 314 行 先 后 把 %esi 和 %edx 的 内 容 压 入 堆栈 ,我 们 知道 ， 
pesi 中 是 出 错 代码 , 而 312 行 已 经 把 堆栈 指针 的 当前 内 容 拷贝 到 %edx 中 。 在 中 断 节 中 我 们 已 经 讲 过 ， 
内 核 将 SAVE, ALL 以 后 堆栈 中 的 内 容 视 同一 个 pt regs 数据 结构 ， 而 当时 的 堆栈 指针 指向 该 数据 结构 
的 起 点 。 所 以 ， 这 二 者 一 项 是 出 错 代 和 码 而 另 一 项 便 是 pt_regs 结构 指针 ， 这 正 是 do_page_fault( ) 的 两 个 
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调用 参数 。 把 调用 参数 压 栈 以 后 ， 就 为 319 行 的 函数 调用 作 好 了 准备 。 其 他 EER LEER APM 
响应 中 都 已 看 到 过 ， 这 里 就 不 重复 了 。 

从 凋 用 的 函数 ， 在 这 里 是 do page fault( AELS, CPU 就 转 入 ret_from_exception。 由 十 
do_page_fault( ) 的 类 型 是 void, 所 以 没有 返回 值 。ret_from_exception 的 代码 也 在 entry.S F: 


(page. fault -> error code -> ... -> ret from exception] 
260 ret from exception: 


261 #ifdef CONFIG SMP 
262 GET. CURRENT (%ebx) 


263 movl processor (%ebx), %eax 

264 shll $5, %eax 

265 mov] SYMBOL NAME (irq stat) (, %eax), %ecx H softirq active 
266 testl SYMBOL NAME(irq stat)!4(,*eax), %ecx # softirq mask 
267 Helse 


268 movl SYMBOL NAME (irq stat), %ecx 8 softirq active 
269 testl SYMBOL NAME(irq stat)*4, %ecx # softirq mask 


270 Hendif 
271 jne handle softirq 
212 


273 ENTRY (ret_from_intr) 

274 GET. CURRENT (%ebx) 

215 movl EFLAGS (%esp), %eax # mix EFLAGS and CS 

276 movb CS (%esp), %al 

277 testl $(VM MASK | 3),%eax # return to VM86 mode or non-supervisor? 
278 jne ret_with_reschedule 

219 jmp restore all 


如 果 没 有 软 中 断 请 求 需要 处 理 ， 就 直接 进入 ret_from_intr。 后 面 这 些 代码 读者 已 经 很 熟悉 了 ， 要 是 
还 有 困难 可 以 回 到 前 几 节 再 看 看 。 


3.7 ”时钟 中 断 


在 所 有 的 外 部 中 断 中 ， 时 钟 中 断 起 着 特殊 的 作用 ， 其 作用 远 赣 单纯 的 计时 所 能 相 比 。 当 然 ， 即 使 
是 单纯 的 计时 也 已经 是 够 重要 了 。 别 的 不 说 , 没有 正确 的 时 间 关 系 ， 你 用 来 重建 内 核 的 工具 make 就 不 
能 不 常 运行 了 ， 因 为 make 万 靠 时 间 标 记 来 确定 是 否 需要 重新 编译 以 及 连接 的 。 可 是 时 钟 中 断 的 重要 性 
还 还 不 止 才 此 。 

我 们 在 中 断 一 节 中 看 到 ， 内 核 在 每 次 中 断 《〈 以 及 系统 调用 和 异常 )》 上 服务 完毕 返回 用 户 空间 之 前 都 
此 检查 是 合 需 要 调皮 ， 若 有 需要 就 进行 进程 调度 。 事 实 上 ， 调 度 只 有 当 CPU 在 内 核 中 运行 时 才 可 能 发 
生 。 在 进程 一 章 中 ， 读 者 将 会 看 到 进程 调度 发 和 在 两 种 情况 下 。 一 种 是 “自愿 ”的 ， 通 过 像 sleep( ) 之 
类 的 系统 调用 实现 ， 或 者 是 在 通过 其 他 系统 调用 进入 内 核 以 后 因 某 种 原因 受阻 需要 等 待 ， 而 “自愿 ” 
让 内 核 调 度 其 他 进程 先 来 运行 。 另 一 种 是 “强制 ”的 ， 当 “个 进程 连续 运行 的 时 间 超 过 一 定 限 度 时 ， 
内 核 就 会 强制 地 调度 其 他 进程 来 运行 。 旭 果 没 有 了 上 时钟， 内核 就 失去 了 与 时 间 有 关 的 强制 调度 的 依据 
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和 时 机 ， 而 只 能 依 融 十 各 个 进程 的 “思想 觉 情 ”了 。 试 想 ， 如 果 有 一 个 进程 在 用 户 空 间 中 陷入 了 死 循 
趟 ， 而 在 循环 体内 也 没有 作 什 何 系统 调 周 ， 并 且 也 没有 发 生 外 设 中 断 ， 那 么 ， 要 是 没有 时 钟 中 断 ， 整 
个 系统 就 在 原 地 打转 什么 事 也 不 能 做 了 。 这 是 因为 ， 在 这 种 情况 下 永远 不 会 有 调度 ， 册 于 抓 件 CPU 不 
放 的 进程 则 陷 在 死 循环 中 。 退 一 步 讲 ， 则 使 我 们 还 有 其 他 的 准则 例如 进程 的 优先 级 ) 玉 决定 是 各 应 
该 调度 ， 邓 也 得 归 有 中 断 、 红 党 或 系统 调用 使 CPU 进入 内 核 运行 才能 发 生 调 虐 。 而 惟一 可 以 预测 在 一 
定 的 时 间 内 必定 会 发 生 的 ， 就 是 “时 钟 中 断 ” 所 以 ， 对 于 像 Linux 这 样 的 “分 时 系统 ”来 说 ， 时 钟 小 
断 是 维护 “生命 ”的 必要 条 件 ， 难 怪人 们 称 时 钟 中 断 为 “heart beat”， 也 即 “ 心 此”。 

企 初 始 化 阶段 ， 在 对 外 部 中 斯 的 基础 设施 ， 也 就 是 IRQ 队 全 的 初始 化 ， 以 及 对 调度 机 制 的 初始 化 
完成 以 后 ， 就 轮 到 时 钟 中 断 的 初始 化 。 请 看 init/main.c 中 start_kernel( ) 的 片段 : 


534 trap init( ); 
035 init IRQ( ) ; 
536 sched init( ); 
537 time init( ); 


从 这 里 也 可 以 看 出 ， 时 钟 中 断 和 调度 是 密切 联系 在 一 起 的 。 以 前 也 讲 到 过 ， 一 旦 开始 有 时 钟 中 断 
束 可 能 归 进 行 调度 ， 所 以 要 先 完成 对 调度 机 制 的 初始 化 ， 作 好 准备 。 函 数 time init( ) 的 代码 在 
arch/i386/kernel/time.c FP: 


626 void | init time_init (void) 


627 { 

628 extern int x86 udelay tsc; 

629 

630 xtime.tv sec = get cmos time( ); 
631 xtime. tv usec = 0; 


704 setup_irg(0, &irq0); 


706 j 


THRAT ER “RAN ER” I, Sc LARA EOM RR EI. RESIS xtime， 其 


类 型 为 struct timeval， 是 在 include/linux/time.h 中 定义 的 ; 


88 struct timeval { 


89 lime t tv sec; /* seconds */ 
90 suseconds t tv usec; /* microseconds */ 
91 E 


TU PEREA E TM AARAA “ZO”, 基数 值 来 白 计 算 机 中 :个 CMOS 
mo BERA OST ER”. 这 块 CMOS mh AHHH, PREPLET Et RAE ep E 
确 的 时 间 。 上 和 面 的 630 47 wie Ht get_cmos_time( ) 从 CMOS 时 钟 晶片 中 把 当时 的 实际 时 间 读 入 xtime， 
时 间 的 精度 为 秒 。 而 有 时钟 中 断 ， 则 是 由 另 :个 遇 片 产生 的 。 

为 “个 伞 局 昌 是 个 无 符号 整数 ， 岂 jitties， 记 录 兰 从 井 机 以 来 时 钟 中 断 的 次 数 。 每 个 jiffy 的 长 度 就 
鲜 时 钟 中 断 的 周期 ， 有 时 候 也 称 为 一 个 tick， 取 决 于 系统 中 的 一 个 常数 HZ， 这 个 常数 定义 于 
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include/asm-386/param.h 中 。 以 后 读者 会 看 到 ， 在 内 核 中 jiffies 远 远 比 xtime 重要 ， 是 个 经 和 常 要 用 到 的 


系统 中 有 很 多 因素 会 影响 到 时 钟 中 断 在 时 间 上 的 精确 度 ， 所 以 此 通过 好 多 手段 来 加 以 校正 。 在 比 
较 新 的 1386 CPU 中 (主要 是 Pentium KUF), Xe EET — BEARES 64 位 寄存 器 ， 称 为 “时 间 印 记 计 
数 器 ”(Time Stamp Counter) TSC。 这 个 计数 器 对 豫 动 CPU 的 时 钟 脉冲 进行 计数 ， 例 如 要 是 CPU 的 时 
钟 脉 冲 频率 为 SOOMHz, J TSC 的 计时 精度 为 2ns。 由 于 TSC 是 个 64 位 的 计数 器 ， 其 计数 要 经 过 连续 
运行 上 千年 才 会 溢出 。 显 然 ， 可 以 利用 TSC 的 读数 来 改善 时 钟 中 断 的 精度 。 不 过 ， 我 们 在 这 里 并 不 关 
心 时 间 的 精度 ， 所 以 跳 过 了 代码 中 有 关 的 部 分 ， 而 只 关注 带 有 本 质 性 的 部 分 。 

读者 在 中 断 : 节 中 看 到 过 setup irq( )， 可 以 回 过 头 去 看 一 下 。 这 里 的 第 一 个 参数 为 中 断 请 求 号 ， 
时 钟 中 断 的 请 求 号 为 0。 第 二 个 参数 是 指向 一 个 irqaction 数据 结构 irq0 的 指针 。rq0 也 是 在 time.c 中 定 
义 的 : 


547 static struct irqaction irq0 = | timer interrupt, SA INTERRUPT, 
0, “timer”, NULL, NULL}: 


可 见 ， 时 钟 中 断 的 服务 程序 为 timer. interrupt( );， ENAK 0 为 时 钟 中 断 专 用 ， 因 为 irq0.flags 中 标 
志 位 SA_SHIRQ 为 0; 而 且 在 执行 timer_interrupt( ) 的 过 程 中 不 容许 中 断 , 因为 标志 位 SA_INTERRUPT 
为 1。 服务 程序 timer_interrupt( ) 的 代码 在 同一 个 文件 (time.c) 中 : 


454 /* 

455 * This is the same as the above, except we also save the current 
456 * Time Stamp Counter value at the time of the timer interrupt, so that 
451 * we later on can estimate the time of day more exactly. 

458 */ 

459 static void timer interrupt (int irq, void *dev_id, struct pt regs *regs) 
460 d 

461 int count; 

462 

463 /* 

464 * Here we are in the timer irq handler. We just have irqs locally 
465 * disabled but we don't know if the timer bh is running on the other 
466 * CPU. We need to avoid to SMP race with it. NOTE: we don' t need 
461 * the irq version of write lock because as just said we have irq 

468 * locally disabled. -arca 

469 * / 

470 write lock(&xtime lock); 

471 

472 if (use tsc) 

473 { 

474 /* 

475 * |t is important that these two operations happen almost at 

476 * the same time. We do the RDTSC stuff first, since it’s 

477 * faster. lo avoid any inconsistencies, we need interrupts 

478 * disabled locally. 

479 */ 
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480 

481 f* 

482 * Interrupts are just disabled locally since the timer irg 
483 * has the SA INTERRUPT flag set. -arca 

484 */ 

485 

486 /* read Pentium cycle counter */ 

487 

488 rdtscl (last tsc low); 

489 

490 spin lock(&i18253 lock); 

49] outb_p (0x00, 0x43); /* latch the count ASAP */ 
492 

493 count = inb p(0x40); /* read the latched count */ 
494 count |= inb(0x40) << 8; 

495 spin unlock(&i8253 lock); 

496 

497 count = ((LATCH-1) - count) * TICK SIZE; 

498 delay at last interrupt = (count + LATCH/2) / LATCH; 
499 ) 

500 

501 do timer interrupt(irq, NULL, regs); 

502 

503 write unlock(&xtime lock): 

504 

505 } 


在 这 里 我 们 并 不 关心 多 处 理 器 SMP 结构 ， 也 不 关心 时 间 的 精度 ， 所 以 实际 上 只 剩 下 501 行 的 


do timer. interrupt( ): 


[timer interrupt( ) > do timer interrupt )] 


380 /* 

381 * timer interrupt( ) needs to keep up the real-time clock, 

382 * as well as call the "do timer( )" routine every clocktick 

383 */ 

384 static inline void do timer interrupt(inti irq, void *dev id, 
struct pt regs *regs) 

385 | 


386 #ifdef CONFIG X86 lO APIC 


DEL 


400 #endif 

401 

402 #ifdef CONFIG VISWS 

403 /* Clear the interrupt */ 


404 co cpu write(CO CPU STAT, co cpu read(CO CPU STAT)& "CO STAT TIMEINTR) ; 
405 Hendif 
406 do_timer (regs) ; 
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407 /* 

408 * In the SMP case we use the local APIC timer interrupt to do the 

409 * profiling, except when we simulate SMP mode on a uniprocessor 

410 * system, in that case we have to call the local interrupt handler. 
All */ 

412 #ifndef CONFIG X86 LOCAL APIC 

413 if (!user_mode (regs) ) 

414 x86 do profile (regs~>cip) ; 

415 Helse 

416 if (!smp found config) 

417 smp local timer interrupt (regs) ; 

418 Hendif 

419 

420 /* 

421 * If we have an externally synchronized Linux clock, then update 

422 * CMOS clock accordingly every “ll minutes. Set rtc mmss( ) has to be 
423 * called as close as possible to 500 ms before the new second starts. 
424 */ 

425 if ((Lime status & STA UNSYNC) == 0 && 

426 xtime.tv sec > last rtc update + 660 && 

427 xtime. tv_usec >= 500000 - ((unsigned) tick) / 2 && 

428 xtime.tv usec <= 500000 + ((unsigned) tick) / 2) | 

429 if (set rtc mmss(xiime.iv sec) == 0) 

430 last rtc update = xtime.tv sec; 

431 else 

432 last rtc update = xtime.tv sec - 600;/* do it again in 60 s */ 
433 } 

434 


435 #ifdef CONFIG MCA 


449 Hendif 
450 ] 


同样 ， 我 们 在 这 里 并 不 关心 多 处 理 器 SMP 结构 中 采用 APIC 时 的 特殊 处 理 ， 也 不 关心 SGI 工作 站 
(402—405 fj) 和 PS/2 的 “Micro chanel” (435~449 行 ) 的 特殊 情况 ， 此 外 ， 我 们 在 这 时 也 不 关心 时 
钟 的 精度 (420~433 行 )。 
这 样 , 就 只 剩 下 了 两 件 事 。…' 件 事 趾 do_timer( )， 另 -一 件 是 x86_do_profile( )。 其 中 x86_do_profile( ) 
的 目的 在 于 积累 统计 信息 ， 也 不 是 我 们 关心 的 重点 。 最 后 就 上 只 剩 下 do_timer( ) 了 ， 那 是 在 kernel/timer.c 
mi 


[timer interrupt( ) > do. timer interrupt( ) > do. timer( )] 


674 void do_timer (struct pi regs *regs) 


675 { 

676 (*(unsigned long *)&jiffies)++; 

677 #ifndef CONFIG SMP 

678 /* SMP process accounting uses the local APIC timer */ 
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679 

680 update process times (user mode(regs)); 
681 #endif 

682 mark bh(TIMER BH); 

683 if (TQ ACTIVE(tq timer)) 

684 mark bh(TQUEUE BH); 

685  ] 


这 时 的 第 676 行使 jiffies 加 1。 细 心 的 读者 可 能 会 问 ， 为 什么 这 里 不 用 简单 的 “jiffies++”， 而 要 使 
用 这 人 么 一 种 育 怪 的 方式 呢 ? 这 是 因为 代码 的 作者 要 使 将 递增 jiffies 的 操作 在 :条 指令 中 实现 ， 成 为 一 - 
个 “原子 ”的 操作 。gcc 将 这 条 语句 翻译 成 一 条 对 内 存单 元 的 INC 指令 。 而 若 采 用 “jiffies++” WA 
可 能 会 被 编译 成 先 将 jiffies 的 内 容 MOV. 至 寄存 器 EAX, 然后 递增 , 再 MOV 回去 。 .者 所 耗费 的 CPU 
时 钟 周 期 几乎 是 相同 的 ， 但 前 者 保证 了 操作 的 “原子 ”性 。 

PK 3X update_process_times( ) 就 与 进程 的 调度 有 关 了 ， 我 们 将 在 进程 调度 节 中 再 米 介绍 。 但 是 ， 
从 阔 数 的 名 季 也 可 以 看 出 ， 它 处 理 的 是 当前 进程 与 时 间 有 关 的 变量 ， 一 方面 是 为 统计 的 日 的 ， 另 一 方 
面 也 十 为 调度 的 日 的 。 对 用 于 记 时 和 统计 前 这 些 变量 的 操作 可 说 是 时 钟 中 断 的 “前 半 ”， 可 是 682 行 和 
684 行为 时 钟 中 断 安排 的 “后 半 ” 和 “第 二 职业 ” HISERESE SAS KD. 

我 们 在 前 儿 节 中 己 介 绍 过 中 断 服务 程序 的 “后 半 ”， 即 bh. CPU 在 从 中 断 返 回 之 前 都 要 检查 是 省 
TART bh 队列 中 还 有 事 等 着 要 处 理 。 而 这 里 的 682 行 就 道 过 mark_bh( ) 将 bh_task_vec[TIMER_BH]# 
入 tasklet_hi_vec 的 队列 中 ， 使 CPU 在 中 断 返 回 之 前 执行 与 TIMER, BH 对 应 的 函数 timer_bh( )， 这 是 
事先 设置 好 了 的 。 对 此 ， 在 kernel/sched.c 的 sched. init( ) 中 有 三 行 重要 的 代码 ; 


1260 init bh(TIMER BH, timer bh): 
1261 init bh(TQUEUE BH, tqueue bh); 
1262 init bh(IMMEDIATE BH, immediate bh); 


这 里 初始 化 了 三 个 bb。 第 AEREE AI ESR BEA, SR SER be 
ARS. HLERA RE, usar AUER A WME OTRO 下 完成 的 操作 ， 其 相应 的 
函数 为 timer bh( ). ifj TQUEUE BH 和 IMMEDIATE_BH， 则 又 是 内 核 中 两 项 重要 的 基础 设施 。 我 们 
以 前 讲 过 ，Linux 内 核 中 中 能 的 bh 的 数量 是 32。 读 者 心里 可 能 已 经 在 想 ，32 个 bh gni? 如 果 需 要 更 
多 怎么 办 ? 还 有 ， 更 重要 地 ， 在 实践 中 常常 会 有 要 求 让 某 些 操作 跟 基 个 已 经 存在 的 中 断 服务 动态 地 挂 
上 和 钩 ， 使 一 些 操 作 按 运行 时 的 需要 “挂靠 ”在 菜 种 中 断 或 甚至 某 种 其 他 的 事件 中 。 举 例 来 说 ， 如 果 我 
们 要 为 一 个 外 部 设备 写 驱动 程序 ,该 设备 些 求 每 20ms 读 一 次 它 的 状态 寄存 器 ， 再 根据 读 入 的 信息 进行 
条 些 计算 ， 并 把 计算 结果 写 入 包 的 控制 寄存 器 以 驱动 一 台 步 进 马达 ， 而 该 设备 并 不 具备 产生 中 断 的 功 
能 。 其 实 ， 由 二 这 个 外 设 的 控制 完全 是 周期 性 的 ， 本 来 就 不 必 使 用 独立 的 中 断 ， 所 需要 解决 的 只 是 怎 
BG RS PP DWE Le. BUE UD. Linux 系统 时 钟 的 频率 是 由 一 个 常数 HZ 决定 的 ， 定 义 十 
include/asm-i386/param.h。 通 常 HZ 定义 为 100， 也 即 每 10ms - -次 时 钟 中 断 ， 跟 需要 的 20ms 止 好 是 整 
数 倍 关 系 。 所 以 ， 如 采写 个 程序 ， 并 且 能 在 每 次 时 钟 中 断 趾 都 调用 它 。 次。 而 在 程序 由 则 设置 Ait 
数 器 ， 使 得 每 当 计 数 为 偶数 时 就 采集 数据 ， 为 奇数 时 就 计算 并 输出 。 这 样 就 可 以 解决 问题 了 。 可 是 ， 
怎 翌 让 时 钟 中 断 千 次 部 米 调用 它 呢 ? TQUEUE BH 就 是 为 这 种 需 此 而 没 置 的 。 企 局 量 iq mer 指向 
SEAS, 想 此 让 系统 在 每 次 时 钟 中 断 时 都 来 调用 某 个 函数 (当然 是 在 系统 空间 ), 就 将 其 挂 入 该 队列 里 。 
而 这 里 的 683 行 则 检查 tq timer 是 否 为 党 。 如 果 不 为 空 就 通过 mark_bh( ) 把 bh_task_vec[ TQUEUE_BH] 
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也 挂 入 tasklet_hi_vec 的 队列 中 ， 这 样 内 核 就 会 在 执行 bh 时 通过 tqueue_bh( ) 来 将 该 队列 中 所 有 的 函数 
都 调用 一 遍 。 由 此 可 见 ，TQUEUE_BH 确实 是 一 项 很 重要 的 基础 设施 。 除 与 时 钟 挂 钩 的 tq_timer 队列 
外 ,还 有 其 他 一 些 bh 和 相应 的 队列 ，IMMEDIATE_BH 是 其 中 之 一 。 有 关 详 情 我 们 将 在 “进程 ”和 “ 设 
符 驱 动 ”有 关 章 市 中 介绍 。 如 果 说 ， 时 钟 中 断 的 “前 半 ”timer_interrupt( ) 和 “后 半 ”timer_bh( ) 还 是 它 
的 “正业 ”的 话 ， 那 么 tqueue_bh( ) 的 执行 便 是 “第 一 职业 ”了 。 

在 做 好 这 些 准 备 以 后 ， 时 钟 中 断 服 务 的 “前 半 ” 就 完成 了 。 可 是 读者 在 中 断 一 节 中 已 经 看 到 ，CPU 
在 返回 途中 ， 却 在 离开 do_IRQ() 之 前 ， 先 折 入 了 do_softirq( ) 去 干 它 的 “后 半 ” 和 “第 二 职业 ” 在 我 
们 这 个 情景 中 ，timer_bh( ) 肯 定 会 得 到 执行 ，J| 作 tqueue_bh( ) 则 在 tq_timer 队列 非 空 时 会 得 到 执行 。 读 者 
BLEN, BER timer bh( ) 肯 定 是 要 执行 的 ， 为 秆 么 不 干脆 把 它 也 放 在 do_timer( ) 中 执行 ， 而 要 费 这 
么 些 周 折 昵 ? 首先 ， 前 面 已 经 看 到 ， 执 行 timer_interrupt( ) 的 整个 过 程 中 中 断 是 关闭 的 〈 见 前 面 的 
SA_INTERRUPT 标志 位 )， 而 timer bh ) 的 执行 则 没有 这 人 么 严格 的 要 求 。 其 次 ， 在 do_IRQ( ) 的 代 但 中 
可 以 看 出 ， 对 具体 中 断 服 务 程 序 的 执行 与 对 do. softirq ) 的 执行 不 是 一 对 一 的 关系 。 对 具体 中 断 服务 程 
序 的 执行 是 在 一 个 循环 中 进行 的 ， 而 do_softirq( ) 只 执行 一 次 。 这 样 ， 当 同一 中 断 通道 央 紧 接着 发 生 了 
好 几 次 中 断 时 ， 对 do_softirq( )， 从 而 对 timer bh ) 的 执行 就 推迟 并 且 合 并 了 。 

与 TIMER_BH 对 应 的 timer_bh( ) 在 kemeltimer.c 中 ， 


668 void timer_bh (void) 


669 { 

670 update times( ); 
671 run timer list( ); 
672 } 


先 看 同一 文件 〈timerc) 中 的 update. times( ): 


[timer_bh( ) > update times( )] 


643 /* 

644 * This spinlock protect us from races in SMP while playing with xtime. -arca 
645 */ 

646 rwlock t xtime_lock = RW LOCK UNLOCKED: 

647 

648 static inline void update, times (void) 

649 { 

650 unsigned long ticks; 

651 

652 /* 

653 * update times( ) is run from the raw timer bh handler so we 
654 * just know that the irqs are locally enabled and so we don't 
655 * need to save/restore the flags of the local CPU here. -arca 
656 */ 

657 write lock irq(&xtime lock); 

658 

659 ticks = jiffies - wall jiffies; 

660 if (ticks) { 

661 wall Jiffies += ticks; 
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662 update wall time(ticks); 
663 ] 

664 write unlock irq(&xtime lock); 
665 calc load(ticks); 

666 } 


这 里 做 了 两 件 事 。 第 一 件 事 是 update_wall_time( )， 上 日 的 是 处 埋 所 谓 “ 实 时 时 钟 ” 或 者 说 “挂钟 ” 
xtime 中 的 数值 , 包 插 计数， 进位 ， 以 及 为 精度 日 的 而 作 的 校正 。 所 涉及 的 主要 也 是 数值 的 计算 和 处 理 ， 
我 们 就 不 深入 进去 了 。 这 里 的 wall_jiffies 也 像 jiffies 一 样 是 个 全 局 量 ， 它 代表 着 与 当前 xtime 中 的 数值 
相对 应 的 jiffies 值 ， 表 示 “ 挂 钟 ” 当 前 的 读数 已 经 较 准 到 了 时 和 轴 上 的 哪 一 点 。 

第 二 件 事 是 calc_load( )， 日 的 是 计算 和 积累 关于 CPU 负荷 的 统计 信息 。 内 核 每 隔 5 秒 种 计算 、 累 
积 和 更 新 一 次 系统 在 过 去 的 15 分 钟 、10 分 钟 以 及 1 分 钟 内 平均 有 多 少 个 进程 处 于 可 执行 状态 , 作为 衡 
量 系统 负 答 轻重 的 指标 。 由 于 涉及 的 主要 是 数值 计算 ， 所 以 我 们 也 不 深入 进去 了 。 

从 update_times( ) 返 回 后 ， 就 是 timer. bh( ) 的 主体 部 分 run_timer_Jist( ) 了 。 它 检查 系统 中 已 经 设置 
的 名 个 “定时 器 ”(timer)， 如 果菜 个 定时 器 已 经 “到 点 ”就 执行 为 之 预定 的 函数 (这 就 是 该 定时 器 的 
bh 函数 ) 我 们 将 在 “进程 与 进程 调度 ” : 章 中 讲述 定时 器 的 设置 , 到 那 时 再 问 过 来 阅读 run_timer_list( ) 
的 代码 。 

每 个 定时 器 都 由 -个 timer list 数据 结构 代表 ， 定 义 于 include/linux/timer.h 中 : 


20 struct timer_list { 


21 struct list_head list; 

22 unsigned long expires; 

23 unsigned long data; 

24 void (*function) (unsigned long); 
25. d 


这 是 “个 用 于 链表 的 数据 结构 ， 链 表 的 长 度 是 动态 的 而 不 受 限 制 ， 因 此 系统 小 可 以 设置 的 定时 器 
数量 也 不 受 限 制 〈 早 期 的 实现 采用 数组 ， 办 而 受到 数组 大 小 的 限制 )。 每 个 定时 器 都 有 个 到 点 时 间 
expires。 结 构 中 的 函数 指针 function 指向 预定 在 到 点 时 执行 的 bh 函数 ， 并 且 可 以 带 一 个 参数 data CR 
期 的 实现 中 不 能 带 参 数 )。 如 前 所 述 ， 在 执行 bh 函数 时 中 断 是 打开 的 。 

可 见 ， 在 整个 时 钟 中 断 服务 的 期 间 ， 大 部 分 的 操作 是 在 “后 半 ”， 即 bh 函数 中 完成 的 。 真 正在 关 
中 新 状态 下 执行 的 只 是 少量 关键 性 的 操作 ， 而 大 量 的 操作 尽 可 能 要 放 在 比较 宽松 的 环境 下 ， 即 开 中 斯 
的 条 件 下 ， 以 及 允许 在 时 间 上 有 所 伸缩 的 条 件 下 完成 ， 这 样 才能 将 对 系统 的 影响 减 至 最 小 。~- 方 面 ， 
这 应 该 成 为 系统 程序 设计 (特别 是 设备 驱动 程序 ) 的 “项 准则 ;而 另 一 方面 ， 这 也 对 设计 和 并 发 的 人 
员 捉 出 了 很 高 的 要 求 ， 因 为 要 区 分 一 项 操作 是 徊 必须 在 “前 半 ” 中 执行 ， 以 及 是 否 必 须 关中 断 ， 需 此 
对 系统 有 深刻 的 理解 。 
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3.8 系统 调用 


如 果 说 外 部 中 上 断 是 使 CPU 被 动 地 、 蜡 步 地 进入 系统 空间 的 一 种 手段 ， 那 么 系统 调用 鳞 羡 CPU È 
动 地 、 同 步 地 进入 系统 空间 的 于 段 。 这 里 所 请 “主动 ” 是 指 CPU“ 自 愿 ” 的 、 事 先 计划 好 了 的 行为 。 
而 “同步 ” 则 是 说 ，CPU CEPR BEARES Bet) A RO 确切 地 知道 在 执行 哪 一 条 指令 以 后 束 一定 会 进 
入 系统 空间 。 相 比 之 下 ， 中 断 的 发 生 带 有 很 人 的 不 可 预测 性 。 但 是 ， 尽 管 有 着 这 样 的 区 别 ， AZ 
还 是 有 很 大 的 共性 。 这 是 因为， 在 使 CPU 的 运行 状态 从 用 户 态 转 入 系统 态 ， 也 就 赴 从 用 广 空间 转 入 系 
统 空间 ， 这 一 个 基本 点 上 一 者 是 一 致 的 。 当 然 ， 中 断 有 可 能 发 生 和 在 CPU 己 经 运行 在 系统 空间 的 时 候 ， 
而 系统 调用 却 内 发 竺 于 用 户 空间 ， 这 义 是 二 者 不 同 的 地 方 。 这 里 ， 关 键 是 CPU 运行 状态 的 改变 ， 没 有 
了 这 样 的 手段 ， 也 就 无 所 请“ 保护 模 代 ”了 。 相 比 之 下 ， 人 在 不 分 “用 户 态 ”和 “系统 态 ” 的 操作 系统 
中 ,例如 DOS， 所 谓 系 统 调 用 实际 土 只 不 过 是 动态 连接 的 库 函 数 调用 而 已 。 虽 然 在 DOS 里面 系统 调用 
也 是 通过 中 断 指 令 INT 来 实现 的 ， 但 是 跟 预 先 规定 好 各 种 库 函 数 入 电 地 址 的 闸 通 函数 调用 没有 多 大 不 
同 。 如 果 用 户 程序 知道 具体 函数 的 入 口 地 址 ， 就 可 以 绕 过 “系统 调用 ”而 直接 调用 这 些 函 数 。 

Linux 的 系统 调用 是 通过 中 断 指令 “INT 0x80” 实 珊 的 。 我 们 已 经 企 抽 而 几 节 中 讨论 过 进 种 通过 
“陷阱 门 ” 或 “中 断 门 ”进入 系统 空间 的 机 制 ， 以 及 IDT 表 中 陷 际 门 的 初始 化 。 本 节 将 着 重 介绍 进 各 
在 系统 调用 中 进入 系统 空间 ， 以 及 在 完成 了 所 需 的 服务 以 后 从 系统 空间 返 思 的 过 程 。 这 个 过 程 并 不 局 
限于 某 个 特定 的 调用 ， 而 古 所 有 的 系统 调用 视 要 经 历 的 共同 的 过 程 。 提 然 我 们 选择 了 一 个 具体 的 调用 
作为 例子 ， 但 并 不 从 功能 的 角度 来 关心 具体 的 调用 ， 而 是 若 腿 丁 这 个 公共 的 过 程 。 系 统 调用 是 内 核 所 
提供 的 最 根本 的 、 最 重 此 的 基础 设施 。 由 于 系统 调用 与 中 断 的 共同 性 ， 读 者 在 网 读 本 WIN iS B /L 
节 ， 特 别 症 中 断 过 程 - 节 结 合 阅 读 。 事 实 上 ， 有 些 代码 就 是 者 共用 的 ， 开 是 以 前 已 经 介绍 过 的 本 节 
就 不 再 重复 。 

由 十 我 们 并 不 关心 内 核 在 共 体 系统 调用 中 所 提供 的 服务 ， 所 以 选择 了 个 非常 简单 的 调用 
sethostname( ) 作 为 情景 ， 通 过 对 CPU 在 这 个 系统 调用 全 过 程 中 所 走 过 的 路 线 的 分 析 ， 介 绍 内 核 的 系统 
调用 机 制 。 

系统 调用 sethostname( ) 的 功能 非常 简单 ， 就 是 设 距 计 算 机 《〈 在 网 络 小 的 )“ 主 机 名 ” 其 使 用 也 很 
简单 : 


int sethostname (const chai *name , size t len); 


参数 name 就 是 柴 设 置 的 主机 名 ， 市 den MAIZTER KE. WAAR 0 表示 成 功 ， 一 1 
则 表示 失败 。 失 败 时 用 户 程序 中 的 全 局 变量 erno 含有 共 体 的 出 错 代 人 码 。 从 程序 设计 的 观点 米 看 ,Linux 
的 系统 调用 可 以 分 成 册 类 : 一 类 比较 接近 于 真正 意义 上 的 " 冰 数 ”调用 的 结果 就 是 男 数 值 ,例如 getpid() 
就 是 这 样 ; 而 另 一 类 就 是 像 sethostname( XFER, RERU RERE TEERDE. m yH 
的 目的 是 通过 “副作用 ”来 体现 的 。 供 是 ， 在 C 语言 中 把 所 有 可 以 通过 调用 指令 米 亢 用 的 程 译 段 ， 也 
就 是 带 有 ret 指令 的 程序 段 都 称 作 “函数 "。 而 中 断 服 务 程 序 和 系统 调用 ， 由 丁 ret CX: hat iret) 指 
令 的 存在 也 就 成 了 “上 晒 数 ”， 我 们 在 讨论 中 也 将 遵循 C IB AA MEZA RR 

为 了 帮助 读者 更 好 地 填 解 系统 调用 的 全 过 程 ， 我 们 从 用户 空间 对 冰 数 sethostname( ) 的 调用 开始 我 
们 的 情景 分 析 。 其 实 ，sethostname( ) 是 一 个 库 函 数 《〈 在 /uswlibylibc.a 中 7》， 人 出 实际 的 系统 调用 赋 让 在 那 
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^e BT AH. GNU If] C 语言 库 函 数 的 源 代 码 也 是 公开 的 ， 可 以 从 GNU 的 网 站 下 载 。 但 是 ， 我 们 
在 这 申 采 用 从 libc.a 反 汇 编 得 到 的 代码 。 电 因 是 ， 一 : 米 方 合 ,“ 得 来 全 不 费 上 上 大” GG dew EE 
HED 编 代 码 也 是 有 好 处 的 。 特 别 症 对 于 系统 程序 员 米 说 ， 阅 读 和 使 用 汇编 语言 也 是 .种 有 用 的 技能 。 


30 sethostname. o: file format elf32 1386 

31 

32 Disassembly of section .text: 

33 

34 00000000 <sethostname>: 

35 0: 89 da movl %ebx, %edx 

36 2: 8b 4c 24 08 movl 0x8 (%esp, 1), %ecx 
37 6: 8b 5e 24 04 movl 0x4 (%esp, 1), %ebx 
38 a: b8 4a 00 00 00 movl  $0x4a, %eax 

39 f: cd 80 int $0x80 

40 11: 89 d3 mov] %edx, %ebx 

41 13: 3d OF f0 ff ff cmpl  $0xfffff001, %eax 
42 18; Of 83 fe ff ff jae la <sethostname+0xla> 
43 ld: ff 

44 la: R 386 PC32 . .Syscall error 


45 le: c3 rct 


HEA pa I sethostname( ) 以 后 ， 堆 栈 指针 %esp 指向 返回 地 址 ， 而 在 堆栈 指针 的 内 容 加 4 的 地 方 则 是 
调 川 该 函 数 时 的 第 … 个 参数 (name)， 加 8 的 地 方 为 第 二 个 参数 lan， 依 次 类 推 。I 于 i386 运行 于 32 位 
模式 ， 所 有 的 参数 都 是 按 32 长 整数 让 入 堆栈 的 。 指 令 “movl Ox8(%esp,1), %ecx” 肯 示 将 相对 丁 寄存 器 
%esp 的 位 移 为 0x8【〔〈 位 移 单位 为 1) 处 的 内 容 ( 华 我 们 这 个 情景 中 就 是 参数 len) 存 入 寄存 器 %ecx。 然 
后 ,又 将 参数 name 从 堆栈 小 存 入 寄存 器 %ebx。 最 后 是 将 代表 sethostname( IY RAAH = 0x4a FEA 
fü eax, EAMETSA “int $0x80”。 这 里 ， 读 者 已 经 看 到 ，Linux 内 核 在 系统 油 用 时 是 通过 
SLE ARTT A AOI IDEE P SRM o 

为 什么 要 用 寄存 器 传递 参数 ? 读者 也 许 还 记得 : 当 CPU 穿 过 陷阱 门 , 从 用 户 空 间 进 入 系统 空间 时 ， 
由 于 运行 级 别 的 变动 ， 要 从 用 户 稚 栈 切 换 到 系统 堆栈 。 如 采 在 INT 指令 之 前 把 参数 压 入 堆栈 ， 那 是 在 
用 户 堆 栈 中 ， 市 进入 系统 空间 以 后 就 换 成 了 系统 堆栈 。 明 然 进 入 系统 空间 之 后 也 还 可 以 从 用 户 堆 栈 中 
读 取 这 些 参数 ， 但 毕竟 比较 费事 了 。 出 通过 寄存 器 来 传递 参数 ， 则 读者 上面 会 看 到 ， 是 个 巧妙 的 安排 。 
RNP HAMA CPU 进入 内 核 ， 而 先 看 一 下 从 系统 调用 返回 以 后 的 情况 。 首 完 是 从 Wedx 中 恢复 %oebx 
原先 的 内 容 ， 那 症 化 系统 调用 之 前 保存 在 %edx PHI (weds 中 原先 的 内 容 就 丢失 了 ， 这 是 - :种 约定 ， 
gee 在 使 用 寄存 占 时 会 遵守 这 个 约定 )。 然 后 就 是 检 伍 系统 调 几 的 返 | 趾 值 ， 那 是 在 寄存 器 Weax Cb. dni 
%eax 中 的 内 容 是 在 Oxfffff001 与 0xfffffffff 之 间 ， 也 就 趟 一 1 至 一 4095 之 问 ， 那 就 是 出 错 了 ， 就 要 转 前 
__syscall_error( ) 并 从 那里 返 |n|。 这 里 的 1a:R_386_PC32 表示 地 址 sethostname+0x1a 处 为 重 定位 信息 ， 
在 连接 时 会 把 地 址 __syscall_error( EL ib. EBL syscall error )t 4E libc.a 中 ， 


sysdep. o: file format e1£32-1386 


Disassembly of section . text: 


J 4 Wh 一 


00000000 <__ syscall error>: 
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0: £7 d8 negl %eax 


6 

7 

8 00000002 <__ syscall error 1>: 

9 2: 50 pushl %eax 


10 3: e8 fe ff ff ff call 4^€X syscall error 140x2» 
11 A: R 386 PC32  errno location 

12 8: 59 popl %ecx 

13 9: 89 08 movl %ecx, (eax) 

14 b: b8 ff ff ff ff movl $Oxffffffff,Weax 
15 TOS c3 ret 

16 

17 

18 errno-loc.o: file format elf32-i1386 

19 

20 Disassembiy of section .text: 

21 

22 00000000 «&  errno location?: 

23 0: 55 pushl %ebp 

24 1: 89 e5 movl  %esp, %ebp 

25 3: b8 00 00 00 00 mov! $0x0, %eax 

26 4: R 386 32 errno 

27 8: 89 ec movl 9*ebp, %esp 

28 a: 5d popl ‘%ebp 

29 b: c3 ret 


fr  syscall error H, JCH%eax 内 容 的 负 值 ， 使 其 数值 变 成 1 一 4095 之 间 ， 这 就 是 出 错 代码 ， 并 
将 其 压 入 堆栈 。 接 着 ， 又 调用 __ermo_loacation( )， 将 全 局 量 errono 的 地 址 取 入 多 eax。 然 后 从 堆栈 中 抛 
出 出 错 代码 至 W%ecx、 六 将 其 写 入 全 局 量 erono。 最 后 ， 在 返回 之 前 ， 将 %eax 的 内 容 改 成 一 1。 这 样 ， 
通过 寄存 器 %eax 返回 到 用 户 进程 的 数值 便 是 一 1， 而 errono 则 含有 具体 的 出 错 代码 。 这 是 对 大 部 分 系 
UR] (sR AQ) 返回 值 的 约定 。 

搞 消 了 发 生 仁 用 户 空 间 的 过 程 ， 我 们 跳 进入 内 核 ， 也 名 是 系统 空间 中 去 了 。CPU 穿 过 陷阱 门 的 过 
程 与 发 生 中 断 时 罕 过 中 断 门 的 过 程 相 同 ， 这 里 就 不 重复 了 。 直 过 ， 还 是 要 指出 ， 因 外 部 中 断 而 穿 过 中 
断 门 时 是 不 检 伍 中 断 门 所 规定 的 准 入 级 别 的 ， 而 在 通过 INT 指令 容 越 中 断 门 或 陷阱 门 时 ， 则 要 核对 所 
规定 的 准 入 级 别 与 CPU 的 当 曾 运行 级 别 。 为 系统 调用 设 阐 的 陷阱 门 的 准 入 级 别 DPL 为 3。 寄存 器 IDFR 
指向 当前 的 中 斯 向 量 表 IDT， 而 IDT 表 中 对 应 于 0x80 的 表 项 就 是 为 INT 0x80 设置 的 陷阱 门 ， 其 中 的 
eK LAE ET E IR] system_call(). “4 CPU 到 这 system call( ) 时 ， 已 经 从 用 户 态 切换 到 了 系统 态 ， 并 且 从 几 
户 稚 栈 换 成 了 系统 堆栈 ， 相 当 于 CPU 在 发 牛 于 用户 空间 的 外 部 中 新 过 程 中 到 达 IRQOxYY_interrupt 时 
的 状态 ， 读 者 不妨 先 问 过 头 去 重 温 下 。 

如 前 所 述 ，CPU 在 穿 过 陷阱 门 进 入 系统 内 核 时 并 不 自动 大 中 断 , 万 以 系统 调用 的 过 程 超 可 中 其 的 。 

PK. system_call( Jf ARATE. arch/i386/kernel/entry.S 中 : 


195 ENTRY (system call) 

196 pushl %eax # save orig cax 
197 SAVE ALL 

198 GET. CURRENT (%ebx) 
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199 cmpl $(NR syscalls), %eax 


200 jae badsys 

201 testb $0x02, tsk ptrace (%ebx) # PT TRACESYS 
202 jne tracesys 

203 call *SYMBOL NAME(sys call table) (, %eax, 4) 

204 movl %eax, EAX (%esp) # save the return value 


205 ENTRY (ret_from_sys call) 


首先 是 将 寄存 器 9%eax 的 内 容 压 入 堆栈 。 系统 堆栈 中 的 这 个 位 置 在 代码 路 称 为 orig_ax, 在 外 部 中 断 
过 程 中 用 米 保存 “经 过 变形 的 ) 中断 请 求 号 ， 几 在 系统 调用 中 则 用 来 保存 系统 调用 号 。SAVE_ALL 我 
们 已 经 在 中 断 过程 一 节 中 看 到 过 了 。 但 是， 这 里 要 指出 ， 对 于 上 庄 入 堆栈 中 的 寄存 器 内 容 的 使 用 方式 是 
不 -一样 的 。 任 中 断 过 程 中 ，SAVE_ALL 以 后 ， 当 调用 具体 的 中 断 服 务 程 序 时 已 经 保存 在 堆栈 中 的 内 容 
是 作为 - -个 pt regs 数据 结构 ， 当 成 参数 传递 给 do JRQ( )， 然 后 又 传递 给 具体 的 服务 程序 的 ， 这 o 
读者 在 中 断 服 务 .- 节 中 已 经 看 到 。 可 是 ， 在 系统 调用 中 就 不 同 了 ， 这 里 堆栈 中 每 个 寄存 器 的 内 容 可 以 
根据 需 此 作为 独立 的 参数 传递 给 具体 的 服务 程序 。 以 sethostname( ) 为 例 ， 需 要 传递 的 参数 是 区 个 ， 分 
别 在 9ebx 和 %ecx "P. 4E SAVE ALL 中 9%ebx 是 最 后 压 入 堆栈 的 ，%ecx 次 之 。 所 以 堆栈 中 %ebx 的 内 
AGM ABH 1， 而 %ecx 的 内 容 就 是 参数 2 了 。 回 到 SAVE ALL 去 看 一 下 ， 可 以 看 到 被 压 入 堆栈 的 客 
Fear tix A: Yes. Yds. peax, Pebp, Pedi, 9besi. Yedx. pecx 和 %ebx。 这 里 的 %eax 持 有 系统 调 
用 号 (与 orig_ax 相同 )， 显 然 不 能 再 用 来 传递 参数 ,而 %ebp 是 用 作 子 程序 调用 过 程 中 的 “ 帧 ”(frame) 
睛 针 的 ， 也 不 能 用 来 传递 参数 。 这 样 ， 实 际 上 就 只 有 最 后 5 个 寄存 器 串 以 用 来 传递 参数 ， 所 以 ， 在 系 
统 调用 中 独立 传递 的 参数 不 能 超过 5 个 。 从 这 里 也 可 以 看 出 ，SAVE_ALL 中 将 寄存 器 压 入 堆栈 的 次 序 
并 不 是 随意 决定 的 ， 和 而 有 其 特殊 的 考虑 。 

宏 调 用 GET CURRENT ( %ebx) 使 寄存 器 %ebx 指向 当前 进程 的 task struct. 结构 ( 关 十 
GET CURRENT 我 们 将 在 进程- 一 章 中 介绍 )。 然 后 ， 就 检查 寄存 器 %eax 中 的 系统 调用 号 是 否 超 出 了 范 
Hl. TE task struct 数据 结构 中 有 个 成 分 Hags， 其 中 有 个 标志 位 叫 PT_TRACESYS。 一 个 进程 可 以 通过 
系统 调用 ptrace( ), 将 一 个 子 进 程 的 PT_TRACESYS 标志 位 设 成 1, 从 而 跟踪 该 子 进程 的 系统 调用 ,Linux 
系统 中 有 一 条 命令 strace 就 是 十 这 件 事 的 , 是 个 很 有 用 的 工具 。 这 里 system_call( ) 中 的 第 201 行 就 是 
在 检查 当前 进程 的 PT_TRACESYS 是 作为 !。 注 意 ，flags(%ebx) 并 不 十 个 函数 调用 ， 沿 是 表示 相对 
于 %ebx 的 内 容 ， 也 就 是 当 阐 进程 的 task. struct 结构 指针 、 位 移 为 flags 处 的 地 址 ， 而 flags 在 entry.S 中 
的 75 行 定义 为 4。 这 点 以 前 已 经 讲 过 ， 这 里 再 提醒 : -下 。 

当 PT_TRACESYS 林 志 位 〈0x20) 为 1 时 ， 就 要 转 入 tracesys， 其 代 公 也 在 entry.S 中 : 


244 tracesys: 

245 mov] $—-ENOSYS, EAX (%esp) 

246 call SYMBOL NAME (syscall trace) 
247 movl ORIG EAX (%esp), %eax 

248 cmpl $(NR syscalls), %eax 


249 jae tracesys exit 
250 call *SYMBOINAME(sys_call table) (, %eax, 4) 
251 movl “eax, FAX (%esp) # save the return value 


252 tracesys_exit: 
253 call SYMBOL NAME(syscall trace) 
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254 jmp ret from sys call 


将 这 一 段 程序 与 前 面 正常 执行 时 的 203 行 作 一 比较 , 就 可 以 看 到 不 同 之 处 在 十 : 7] PT TRACESYS 
为 1 时 ， 在 调用 有 具体 的 服务 程序 之 前 和 之 后 都 要 调用 一 下 函数 syscall_trace( )， 癌 父 进程 报告 具体 系统 
调用 的 进入 和 返回 。 我 们 将 在 讲述 进程 问 通 从 时 再 深入 到 syscall trace( ) 中 去 ， 但 是 有 兴趣 的 读者 不 妨 
“ALAA. MEPE system call 中 继续 看 那里 的 203 行 。 这 是 一 条 call 指令 ， 所 call 的 地 址 在 一 个 
函数 指针 中 ， 而 这 个 消 数 指针 在 数组 sys_call_table[ ] 中 以 %eax 的 内 容 为 下 标 、 单 位 为 4 个 字 节 的 元 来 
H, RIAR (C peax, 4) Bug SB AS. Xon4c96eax 的 基础 上 并 没有 其 他 的 位 移 ， 而 4 则 表 
Ait SRLS CObeax 相对 于 sys call table) 时 的 单位 为 4 学 节 。 系 统 调 用 跳 转 才 sys call table[ ] 是 个 
函数 指针 数组 ， 册 于 篇 幅 较 大 ， 我 们 把 它 单 独 作为 节 ， 附 在 本 童 之 后 。 

表 中 几 是 内 核 不 文 持 的 系统 调用 号 全 部 都 指 癌 sys_ni_syscall( )， 这 个 图 数 只 是 返 问 一 个 出 错 代码 
一 ENOSYS， 表 示 该 系统 调用 尚未 实现 。 结 合 前 面 讲 过 的 libc.a 中 的 处 理 ， 吕 J 知 此 时 用 户 程 序 会 得 到 返 
同 值 一 1， 而 全 局 量 erno 的 值 为 ENOSYS。 

足 转 表 中 位 移 为 0x4a， 也 就 是 74 处 的 函数 指针 《上 见 后 面 跳 转 表 中 的 500 行 ) 为 sys_sethostname， 
所 以 在 我 们 这 个 情景 中 就 进入 了 sys_sethostname( )， 这 也 是 在 kernel/sys.c 中 定义 的 : 


971 asmlinkage long sys_sethostname (char *name, int len) 


972 { 
973 int errno; 
974 
975 if (!capable (CAP. SYS ADMIN) ) 
976 return -EPERM; 
977 if (len < 0 i| len > | NEW UTS LEN) 
978 return -EINVAL; 
979 down write(&uts sem); 
980 errno = -EFAULT; 
981 if (copy from user(system utsname.nodename, name, len)) { 
982 system utsname. nodename[len] = 0; 
983 errno = 0; 
984 } 
985 up write(&uts som); 
986 return errno; 
987 |] 
可 想 而 知 ，sethostname PXiZzé AAPA AA STUDEAT PEE, BRO RRR xu. HR 


XX capable(CAP. SYS ADMIN)E? & HWE 24 CAP SYS ADMIN 的 授权 。 如 没有 的 话 就 返回 
负 的 出 错 代码 EPERM。 然 后 ， 又 对 字符 申 的 长 度 进 行 检 会 以 保证 安全 。 

在 多 处 理 器 系统 中 ， 同 时 可 以 有 多 个 进程 在 不 同 的 CPU 上 运行 。 这 样 ， 吴 有 串 能 发 生 两 个 进程 向 
时 调用 sethostname( )， 列 形成 这 样 的 击 刍 : 

(1) 进程 A UAH] sethostname( )， 要 把 主机 名 让 成 “AB” 

(2) 进程 C 在 男 一 个 CPU 上 运行 ， 也 调用 sethostname( ), Eit! LALER “CD”. 

(3) 进程 A 先进 入 内 核 ， 并 上 及 已 经 在 sys_sethostname( ) | “A” GAT Wd drm 

system_utsname.nodename， 可 是 还 浅 有 来 得 及 写 “B ”之 前 发 生 了 中 断 ， 出 C 在 这 个 时 候 插 
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(4) 进程 C 进入 内 核 ， 并且 完成 了 对 sethostname( ) 的 调用 ， 成 功 地 将 内 核 中 的 

system_utsname.nodename IgE “CD”. 

(5) fim. DERE A 恢复 运行 ， 继 续 把 “B” 写 入 system utsname.nodename. 

(6)” 当 进程 A 完成 对 sethostname( ) 的 调用 而 “成 功 ” 返 回 时 ， 内 核 中 system_utsname.nodename 

的 内 容 却 是 “CB"”。 

住 操作 系统 理论 中 ， 这 种 现象 称 为 “race condition”( 抢 道 )。 为 了 防止 这 种 情况 发 发 生 ， 就 些 将 对 
system_utsname.nodenamer 的 操作 放 在 受到 “信号 量 ”(semaphore ) 保护 的 “临界 区 ”中 ， 而 
sys sethostname( ) 中 979 行 的 down write( )# 985 行 的 up. write( ) 所 实现 的 正 是 这 样 的 保护 机 制 。 有 了 
这 种 保护 ， 上 述 过 程 中 当 进 程 C 到 达 979 行 时 会 发 现 已 经 有 个 进程 正在 里 面 操作 ,“ 请 勿 打扰 ” WB 
愿 暂 绥 ， 让 别 的 进程 先 运 行 ， 从 而 避免 了 卡 相 抢 道 。 

下 面 , 就 古本 次 系统 调用 所 要 完成 的 实质 性 的 操作 了 ， 这 就 是 将 参数 name 所 指向 的 字符 串 写 入 内 
核 中 的 system_utsname.nodename。 这 个 操作 的 源 在 用 户 空间 中 ， 而 日 标 在 系统 空间 中 ， 所 以 要 通过 一 
个 安 操作 copy_from_user( ) 来 完成 复制 。 如 挤 所 述 ， 系 统 调用 时 是 通过 寄存 器 传递 参数 的 ， 能 够 通过 寡 
存 器 传递 的 信息 量 显 然 不 大 ， 所 以 传递 的 参数 大 多 是 指针 ， 这 样 才 能 通过 指针 找到 更 人 块 的 数据 。 因 
此 , 对 寺 系 统 调用 的 实现 ， 类 似 十 copy. from user( ) 这 样 在 用 户 空间 和 系统 空间 之 间 复 制 数据 的 操作 是 
很 重要 、 也 很 常用 的 。 对 丁 1386 CPU, ZERE copy_from_user( ) 是 在 asm-i386/uaccess.h ! 小 定义 的 : 


567 #define copy from user (to, from, n) \ 
568 (. builtin constant p(n) ? 

569 __constant copy from user((to), (from), (n)) : V 
570 ..generic copy from user((to), (from), (n))) 


当 复 制 的 长 度 为 一 些 特 殊 的 常数 ， 例 如 4. 8. 7. 512 等 等 时 ， 具 体 的 操作 要 略为 简单 一 些 ， 布 
在 一 般 的 情况 下 则 通过 __generic_copy_from_user( ) 来 完成 。 其 代码 在 arch/i386/lib/usercopy.c 中 : 


50 unsigned long 

51 __generic_copy_from_user (void *to, const void *from, unsigned long n) 
52 | 

53 if (access ok(VERITY READ, from, n)) 

54 .— copy user zeroing(to, from, n) : 

55 return n; 

56 } 


XIT GERE, access ok( ) 只 是 检查 参数 from A n 的 合理 性 ， 例如 《from +n) 是 否 超出 了 用 户 空 
间 的 上 限 ， 而 并 不 人 检查 该 区 间 是 个 已 经 映射 。 然 后 ， 就 通过 另 :个 宏 操 作 _copy_user_zeroing( ) 从 用 户 
空间 复制 。 这 里 __copy_user_zeroing( ) 的 代码 品 以 说 是 - HR “BL”, 可 是 ， 这 个 操作 对 于 系统 调用 
KEREK. HRA : 些 其 他 的 类 似 操 作 ， 例 如 在 copy_to_user( ) 中 调用 的 __copy_user( )， 以 及 
— constant. copy. user( )， 还 有 __do_stmcpy_from_uscr( ). get_user( ) 等 等 都 与 此 非常 相似 ， 所 以 还 是 值 
得 “ 哨 ” 一 下 的 。 男 -方面 ， 我 们 让 第 2 章 中 讲述 do_page_fault( ) 叶 留 下 了 -- 个 尾巴 ， 止 是 跟 这 些 操 
作 有 关 的 。 宏 操作 __copy_user_zeroing( ) 的 定义 在 include/asm-i386/uaccess.h t: 
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263 Hdefine __copy_user_zeroing (to, from, size) \ 
264 do { \ 

265 int | dO, dl; \ 

266 __asm__ volatile ( \ 

267 "0: rep; movsl\n” \ 

268 ” movl %3, %0\n” \ 

269 ^l: rep; movsb\n” X 

270 “2:\n” \ 

271 ^. section . fixup, \V ax\ \n” \ 

272 "3: lea 0(%3, %0, 4), %0\n” \ 

273 ^4: pushl %0\n” \ 

274 " — pushl %%eax\n” \ 

275 "  xorl %%eax, %%eax\n” \ 

276 " rep; stosb\n” \ 

277 ” — popl %%eax\n” \ 

278 " — pop] %0\n” \ 

219 ” .— jmp 2b\n” \ 

280 ^. previous \n” \ 

281 "section | ex table, V'aV'An^ \ 

282 "  .align 4M \ 

283 "^ .long Ob, 3b\n” \ 

284 ”  . long 1b, 4b\n” \ 

285 ” previous” \ 

286 : “=&c” (size), "-&D' ( dO), "-&S" ( dl) X 
287 : “r” (size & 3), "O" (size / 4), “1” (to), “2” (from) \ 
288 : “memory”) ; \ 


289 } while (0) 


首先 来 看 __copy_user_zeroing( ) 代 码 中 常规 的 部 分 , 这 些 代码 是 在 操作 顺利 ，“ 切 都 正常 的 情况 下 
执行 的 。 这 一 部 分 实质 上 只 有 267—270 四 行 ， 加 上 286 一 288 一 行 。286 行为 “输出 部 ”， 共 说 明了 一 
个 变量 ， 分 别 为 %0、%1 以 及 %2。 其 中 %0 对 应 于 参数 size， 与 寄存 器 9%ecx 结合 ; %1 对 应 于 局 部 变 
量 __do， 与 寄存 器 %%edi 结合 ;而 %2 则 对 应 于 局 部 变量 _dl， 与 寄存 器 %9%pesi 结合 。287 行为 “ 输 
ASQ", 说 时 了 思 个 变量 。 第 一 个 为 %3， 是 一 个 寄存 器 变量 ， 初 值 为 〈size&3)， 而 后 面 两 个 则 分 别 等 
UF%1, 992 和 %3， 分 别 应 该 置 初 值 为 〈size/4)， 人 参数 to， 以 及 参数 frfom。 完 成 了 和 输入 部 所 规定 的 初 
各 化 以 后 ， 就 开始 执行 267 一 270 行 的 汇编 语 计 程序。 程序 中 利用 了 X86 处 理 器 的 REP 和 MOVS 指令 
WITRE MOVE, FTR %ecx 为 计数 嚣 ，%%esi HVE, pedi 为 日 标 指针 。 先 按 发 整数 进行 ， 
然后 对 剩余 的 部 分 (不 超过 3 个 ) 字 节 按 字 节 进行 。 如 果 用 CBSE KE RRS, MAA: 


__copy_user_zeroing (void *to , void *from ， size) 
{ 
int r; 
r = size & 3; 
size = size/4; 
while(size —) *((int *) to)++ = * ((int *) from) ++; 
while(r —)  *((char *) to)++ - *((char*) from) +t; 
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显然 ， 二 者 的 效率 是 不 能 相 比 的 。 读 者 在 前 几 节 中 已 经 看 到 过 类 似 的 代码 ， 所 以 这 一 部 分 代码 是 
容易 理解 的 。 

可 是 ， 为 什么 要 有 从 271 行 至 280 行 这 些 代 码 昵 ?代码 的 作者 特地 写 了 个 说 明 ， 就 是 文件 
" Documentation/exception.txt ”, fg FE H m 《如 果 读 省 的 计算 机 安装 了 Linux， 可 以 在 
/usr/sre/linux/Documentation 目 东 中 找到 这 个 文件 )。 不 过 读者 在 阅读 那 篇 说 明 时 可 能 还 会 感到 困难 ， 所 
以 我 们 结合 本 节 的 情景 分 析 加 以 补充 说 明 。 当 内 核 从 一 个 进程 得 到 从 用 户 空 间 传 递 进来 的 指针 时 ， 就 
像 这 个 情景 中 的 name， 是 很 难保 证 这 个 指针 的 “合法 ”性 的 ， 更 难保 证 在 长 度 为 len 的 整个 区 间 部 是 
“合法 ”的 。 所 以 ， 为 安全 起 见 应 该 先 检查 这 个 区 间 的 合法 性 ， 看 看 由 指针 和 长 度 两 个 参数 所 决定 的 
虚 存 区 间 是 否 已 经 建立 映射 。 每 个 进程 部 有 个 代表 它 的 虚 存 空间 的 mm struct 数据 结构 ， 记 录 着 该 进 
程 企 用 户 空间 所 有 已 经 建立 映射 的 区 间 。 只 此 搜 索 这 个 数据 结构 中 的 链表 ， 就 可 以 发 现 从 name 开始 ， 
KEA len 的 区 间 是 否 已 经 建立 映射 ， 并 且 是 合 允 许 所 需 的 操作 《〈 读 或 气 )。 内 核 中 专门 有 个 函数 
verify_area() 用 于 这 个 目的 。 而 Linux 内 核 老 一 些 的 版 本 中 确实 就 是 这 样 做 的 。 但 是， 每 次 从 用 户 区 
读 或 写 时 都 要 进行 这 样 的 检查 实在 是 个 人 负担， 测试 表明 这 个 负担 在 典型 的 应 用 中 确实 显著 地 影响 了 效 
率 。 在 实际 应 用 中 ， 虽 然 指针 有 问题 的 可 能 性 也 是 有 的 ， 甚 至 可 能 还 不 小 ， 但 毕竟 总 是 少数 ， 也 许可 
以 说 “ 百 分 之 九 上 五 以 上 的 指针 都 是 好 的 ”， 实 在 犯 木 着 为 少数 的 坏 指 针 而 “打击 一 大 片 ”， 致 使 总 体 
效率 下 降 。 所 以 ， 新 版 本 就 决定 把 对 指针 合法 性 的 检查 取消 了 。 万 .- 碰 上 了 坏 指 针 ， 堵 就 让 页 面 异常 
发 生 吧 ， 内 核 可 以 在 页 面 异常 的 服务 程序 中 个 别 地 处 理 这 个 问题 。 

WE, 我 们 再 回 过 头 去 看 看 do_page_fault( )。 当 磁 上 环 指针 而 页 面 漠 常 真 的 发 牛 时 ， 人 在 
do page fault( ) 中 ， 首 先 就 是 通过 find vma( ME A BERE Erin EE, Un RS AES 
bad_area。 在 第 2 章 中 ， 我 们 对 于 bad area 只 讲 了 当 异 常 发 生 于 CPU 运行 在 用 户 空 间 时 的 情况 。 而 在 
我 们 现在 这 个 情景 中 ， 则 异常 发 生 于 当 CPU 运行 在 系统 空间 的 时 候 。 虽 然 访问 失败 的 日 标 地 址 在 用 户 
空间 中 ， 但 CPU 的 “执行 地 址 ” 却 是 在 系统 空间 中 。 为 方便 起 见 ， 我 们 再 列 出 do_page_fault ( ) 中 有 关 
的 几 行 代码 : 


[do page fault( )] 


299 do_sigbus: 


4 m ç a > "s >» 


315 /* Kernel mode? Handle exceptions or die */ 
316 if (!(error code & 4)) 

317 goto no context; 

318 return; 


255 no context: 


256 /* Are we prepared to handle this kernel fault? */ 

257 if ((fixup = search exception table(regs-^eip)) != 0) { 
258 regs-2eip = fixup: 

259 return; 

260 } 
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就 是 说 ， 如 果 内 核能 够 在 一 个 “有 寞 常 表 ”中 找到 发 牛 异 常 的 指令 所 在 的 地 址 ， 并 得 到 相应 的 “ 修 
复 ” 地 址 fixup, M CPU 在 异常 返回 后 将 要 重新 执行 的 地 址 蔡 换 成 这 个 “修复 ”地 址 。 为 什么 要 这 
样 做 呢 ? 因为 在 这 种 情况 下 内 核 不 能 为 当前 进程 补 上 一 个 页 面 (那样 的 话 name 所 指 的 字符 串 就 变 成 空 
白 了 )。 而 如 果 任 其 和 白 然 的 话 ， 则 从 异常 返 症 以 后 ， 当 前 进程 必然 会 接连 不 断 地 因 执 行 同一 条 指令 出 产 
生 新 的 异常 , 洛 入 “万 动 不 复 ”的 地 步 。 所 以 , Dae “Mie bt Be Kk”. 函数 search. exception. table 
() 是 在 arch/i386/mnyextable.c 中 定义 的 : 


[do page. fault( ) > search_exception_table( )] 


33 unsigned long 
34 search exception table (unsigned long addr) 


30 { 

36 unsigned long ret; 

37 

38 &ifndef CONFIG MODULES 

39 /* There is only the kernel to search. */ 

40 ret = search one table( start ex table, __ stop. ex table-1, addr): 
41 if (ret) return ret; 

42 #else 

43 /* The kernel is the last "module" -- no need to treat it special. */ 
44 struct module *mp; 

45 for (mp = module list; mp ‘= NULL; mp = mp->next) | 
46 if (mp->ex table start == NULL) 

47 continue; 

48 ret = search one table(mp-^ex table start, 

49 mp-^ex table end - 1, addr); 

50 if (ret) return ret; 

51 ) 

02 #endif 

53 

54 return 0; 

55 ] 


管 38 47H) CONFIG. MODULES 是 否 有 定义 ， 即 是 否 支 持 “ 可 安装 模块 ”取决 于 系统 配置 )， 
A, 


不 
最 终 总 是 要 调用 search one table ()。 那 也 是 在 同 :个 源 文件 (extable.c) 中 : 


[do_page_fault( ) search exception table( ) > search, one table( )] 


12 static inline unsigned long 

I3 search one table (const struct exception table entry *first, 
14 const struct exception table entry *last, 

15 unsigned long value) 

16 { 

17 while (first <= last) { 

18 const struct exception table entry *mid; 

19 long diff; 
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20 

2] mid = (last - first) / 2 + first: 
22 diff = mid->insn - value; 
23 if (diff == 0) 

24 return mid->fixup; 

25 else if (diff < 0) 

26 first = mid*1; 

27 else 

28 last = mid-l; 

29 } 

30 return 0; 

3l } 


显然 ， 这 里 所 实现 的 是 在 “个 exception table entry 结构 数组 由 进行 的 对 分 搜索 。 数 据 结 构 struct 
exception table entry 又 是 在 include/asm-i386/uaccess.h 路 定义 的 : 


67 /* 

68 * The exception table consists of pairs of addresses: the first is the 
69 * address of an instruction that is allowed to fault, and the second is 
10 * the address at which the program should continue. No registers are 
71 * modified, so it is entirely up to the continuation code to figure out 
72 * what to do. 

73 * 

74 * All the routines below use bits of fixup code that are out of line 

75 * with the main instruction path. This means when everything is well, 
76 * we don’t even have to jump over them. Further, they do not intrude 
77 * on our cache or tlb entries. 

78 */ 

79 

80 struct exception_table entry 

81 { 

82 unsigned long insn, fixup; 

83} 


结构 中 的 insn Aor Al RE RE REO ETE, Mj fixup 则 为 用 来 替换 的 “修复 ”地 址 。 读 
"eH: 可 能 发 生 门 题 的 指令 有 类 么 多 ， 怎 么 能 为 每 -条 可 能 发 生 问 题 的 指令 都 建立 这 样 一 个 数据 结 
构 呢 ? 回答 是 ， 首先， 可 能 发 生 问 题 的 指令 其 实 并 不 像 想像 的 浪 么 多 ， 其 次 ， 由 谁 来 为 这 些 指 令 建 立 
这 样 的 数据 结构 呢 ? 很 简单 ， 就 是 “ 谁 使 用 ， 谁 负责 ”。 例如， 我 们 这 里 的 __copy_user_zeroing( ) 划 从 
RIP SERI, TAER AE n], 它 就 应 该 负责 在 异常 表 中 为 其 可 能 发 生 问题 的 指令 建立 起 这 样 的 数据 
aM. 

现在 我 们 可 以 同 到 __copy_user_zeroing( ) 的 代 公 由 了 。 首 先 ， 在 这 里 可 能 发 生 问题 的 指令 其 实 只 有 
AR, 一 条 是 267 行 标号 为 0 的 movsl, 另 :条 则 是 269 行 标号 为 1 的 movsb。 所 以 应 该 建立 两 个 表 项 ， 
WARE AE 282 行 全 284 行 所 说 明 的 ， 关键 之 处 在 283 行 和 284 行 。283 行 表示 ， 如 果 异 常 发 生 在 前 面 标号 
为 0 处 的 地 址 ， 也 就 是 指令 movsi 所 在 的 地 址 ， 那么 其 “修复 地 址 ” fixup 为 盯 面 标号 为 3 处 的 地 址 ， 
也 就 是 指令 lea 所 在 的 地 址 。 这 时 ，CPU 从 “修复 地 址 ”开始 做 些 什么 修复 呢 ? 在 这 里 是 通过 stosb 把 
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system_utsname_nodename 中 剩余 的 部 分 设 成 0( 当 然 也 可 以 是 什么 部 不 做 ), 然后 , 就 通过 279 4T BY IMP 
FSS PES AT Mie Sy 2 处 ， 也 就 是 结束 的 地 方 。 这 样 ， 虽 然 从 用 户 空间 拷贝 的 目的 没有 达到 ， 却 如 
免 了 陷入 在 “异常 一 重 执 ”之 间 可 能 发 生 的 无 限 循环 。 

大 家 知道 ， 程 序 经 编译 (或 汇编 ) 连接 以 后 ， 其 可 执行 代码 分 成 text 和 data 两 个 段 。 但 是 ， 其 实 
GNU 的 gcc 和 ld 还 支持 另外 两 个 段 。 一 个 是 fixup， 专 门 用 于 异常 发 生 后 的 修复 ， 实 际 上 跟 text 段 没 
有 太 大 区 别 。 另 :个 是 __ex_table， 专 门 用 于 异常 地 址 表 。 出 __copy_user_zeroing () 中 的 271 行 和 281 
行 就 是 告诉 gee 应 该 把 相应 的 代码 分 别 放 在 fixup I ex table 段 中 , 连接 时 ld 会 按 地 址 排序 将 这 些 表 
项 装 入 异常 地 址 表 中 。 

实际 上 ， 不 光 是 像 _copy_user_zeroing( ) 这 样 的 函数 要 准备 好 “修复 地 址 ” 任何 在 内 核 中 运行 时 
可 能 发 生 问 题 的 都 要 有 所 准备 ， 其 中 还 包括 我 们 在 鹿 ， 节 中 看 到 过 的 RESTORE_ALL。 当 时 为 了 让 读 
者 把 注意 力 集中 在 中 断 的 基本 机 制 上 而 没有 讲述 有 关 的 内 容 ， 我 们 在 下 面 讲 到 从 系统 调用 返回 时 会 加 
以 补充 。 这 里 ， 读 者 还 应 注意 一 下 函数 __generic_copy_from_user( ) 的 返回 值 。 从 代码 中 可 以 看 到 ， 运 
回 的 是 调用 参数 ， 也 就 是 从 用 户 空 闻 拷 页 的 长 度 。 这 是 怎么 回 事 呢 ? 这 是 因为 __copy_user zeroing( ) 
不 是 一 个 函数 ， 而 是 一 个 宏 定 义 。 在 执行 的 过 程 中 , n 随 着 复制 而 减 小 ， 一 直到 0 为 目 。 如 果 中 途 失 败 
的 话 ， 则 n 代表 了 剩 下 未 完成 部 分 的 大 小 。 回 头 看 一 下 __copy_user_zeroing( ) 中 的 第 273 fT, X Ef 
%0 就 是 参数 size, 因而 也 就 是 n. 同 时 , 它 就 是 寄存 器 %%ecx。 什 movsl 或 movsb 执行 的 过 程 中 ，%%ecx 
的 值 一 直 减 小 ， 直 到 为 0 时 movsl 或 movsb 就 结束 了 。 当 操作 中 途 失 败 而 到 达 273 TN, %%ecx 的 值 
一 定 是 非 0。 可 是 ， 下 面 在 276 行 还 要 用 %%ecx， 所 以 先 把 它 保存 在 维 栈 中 ， 而 到 278 行 再 来 恢复 。 
所 以 ,最 后 在 __generic_copy_from_user 中 返回 的 n 表 未 还 有 几 个 字 节 尚未 守成。 而 在 sys_sethostname( ) 
中 ， 则 根据 这 个 返回 值 来 判断 copy_from_user( ) 是 否 成 功 。 当 返回 值 为 0 时 ， 就 把 errno 也 设 成 0。 这 
样 最 后 sys_sethostname( ) 返 回 0 表示 成 功 ， 而 若 在 copy_from_user( ) 过 程 中 失败 则 返回 一 EFAULT。 

由 于 sys sethostname( ) 本 身 很 简单 ， 现 在 回 到 本 节 开 头 的 system_call( )。CPU 从 具体 系统 调用 的 
服务 程序 返回 时 ， 由 服务 程序 准备 好 的 返回 值 在 寄存 器 Weax 中 ， 所 以 在 第 204 行将 它 写 入 到 堆栈 中 与 
qeax 对 应 的 地 方 , 这 样 在 RESTORE_ALL 以 后 , 这 个 返回 值 仍 通 过 %eax 传 回 用 户 空间 。 这 以 后 , CPU 
就 到 达 了 ret_from_sys_call。 


[system_call -> ret_from_sys_call] 


205 ENTRY (ret_from_sys_call) 
206 #ifdef CONFIG SMP 


207 mov! processor (%ebx), *eax 

208 shli $CONFIG X86 L1 CACHE SHIFT, %eax 

209 movl SYMBOL NAME(irq stat) C, &eax), %ecx # softirq active 
210 testl SYMBOL NAME(irq stat)+4(, %cax),%ecx # softirq mask 
211 #else 

212 movl SYMBOL NAME (irq stat), %ecx # softirq active 

213 testl SYMBOL NAME (irq stat)+4, %ecx # softirg mask 

214 Hendif 

215 jne handle softirq 

216 

217 ret with reschedule: 

218 cmpl $0, need resched (%ebx) 

219 jne reschedule 
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220 cmpl $0, sigpending (%ebx) 


221 jne signal return 
222 restore all: 
223 RESTORE ALL 


oe 02 6 © oc 9 


282 handle softirq: 
283 call SYMBOL NAME(do softirq) 
284 jmp ret from intr 


读 省 已 经 读 过 从 中 断 返回 时 的 代码 ， 对 上 面 这 些 代码 应 该 不 会 有 问题 了 。 
WHERE. E RESTORE ALL 中 有 三 条 指令 可 能 会 引起 异常 ， 所 以 需要 为 之 准备 “修复” 
这 二 条 指令 是 popl eds, popl wes 以 及 iret. 我 们 先 看 代码 (entry.S)， 再 加 以 讨论 : 


101 #define RESTORE ALL \ 
102 popl %ebx: V 

103 popl %ecx; V 

104 popl %edx: \ 

105 popl %esi: \ 

106 popl Wedi; \ 

107 popl *ebp; \ 

108 popl %eax; \ 

109 1: popl *ds; V 
110 2: popl *es; \ 
lil addl $4, %esp; 


112 3: iret; X 

113 .Section .fixup, “ax”: \ 
114 4:  movl $0, (%esp); \ 

115 jmp 1b; \ 

116 5:  movl $0, (%esp): V 

117 jmp 2b; \ 


118 6: pushl %ss; \ 
119 popl %ds; \ 
120 pushl %ss: \ 
121 popl Xes; \ 
122 pushl $11; 
123 call do exit; \ 


124 . previous; \ 

125 . section __ex_table,”a”:\ 
126 „align 4;  -X 

127 . long 1b, 4b; 

128 . long 2b, 5b; \ 

129 . long 3b, 6h; \ 

130 . previous 


这 里 准备 了 二 个“ 修复” 地址， 分 别 在 127~129 fj; 而 可 能 出 问题 的 指令 则 分 判 在 109 行 、110 
行 和 112 行 。 那 么 ， 为 什么 从 堆栈 中 恢复 %ds 会 有 可 能 发 生 问题 呢 ? 读者 也 许 还 记得 ， 和 但 当 装 入 -- -个 
段 寄 存 器 时 , CPU 部 要 根据 这 新 的 段 选择 码 以 及 GDTR 或 LDTR 的 内 容 在 相应 的 段 描 述 表 中 找到 所 选 


- 255. 


Linux 内 核 源 代码 情景 分 析 (上 册 ) 

拌 的 段 描述 项 ， 并 加 以 检查 。 如 果 描 述 项 与 选择 码 都 有 效 并 且 相 符 ， 就 将 描述 项 装 入 到 CPU 中 有 段 寄存 
器 的 “不 可 见 ” 部 分 ， 使 得 以 后 个 必 每 次 都 要 到 内 存 中 去 访问 该 描述 需 。 可 是 ， 如 果 因 为 不 管 什么 原 
因 出 使 得 选择 码 或 描述 项 无 效 或 不 符 时 ，CPU 就 会 产生 Ye "BIRD" (General Protection) sE 
为 GP 异常 )。 当 这 样 的 异常 发 生 十 系统 空间 时 ， 就 点 为 之 准备 寻 修 复 于 段 。 在 这 里 ， 为 “popl %ds H 
备 的 修复 手段 是 从 标号 为 4 处 ， 即 114 行 的 “move $0,(9esp)” 指 令 开始 的 程序 段 ， 实 际 上 只 有 商行 。 
这 条 指令 将 %ds 让 维 栈 中 的 副本 先 清 成 0， 然 后 在 115 行 转 回 109 行 重新 执行 “popl %ds”"。 为 什么 这 
样 就 能 “修复 ” 呢 ? 其 洋 冉 不 是 真 的 修复 ,而 只 是 避免 进一步 的 GP 异常 。 以 0 作为 段 选择 合 称 为 “ 衬 
PEPE”, 将 空 选 择 码 装 入 一 个 段 央 人 存 器 CR CS 和 SS 以 外 ) 本 身 不 会 引起 GP 异常 ， 和 而 要 到 以 后 企 网 
通过 这 个 空 选择 码 访 问 内 存 时 才 会 3 引起 异常 , 但 那 是 冉 到 几 户 空间 以 后 的 事 了 。 在 用 户 空 间 发 生 弄 音 ， 
最 多 也 不 过 是 把 这 进程 “ 杀 ” 了 了 ， 放 不 会 在 系统 - :级 上 产生 问题 。 所 以 ， 这 里 的 修复 手段 实际 二 是 把 
问题 往 下 推 、 往 后 推 而 已 。110 行 的 “popl Wes ”与 此 相同 。 

最 后 ， 为 什么 “iret” 也 可 能 发 生 问 题 ， 又 怎样 “修复 ” 呢 ? 当 i386CPU ARAT H H KR e eA 
户 空 间 时 ， 上 昌 从 系统 堆栈 中 恢复 用 户 堆 栈 的 指针 ， 包 括 堆 栈 段 寄存 器 的 内 容 ， 并 从 系统 堆栈 中 恢复 在 
用 户 空间 的 返回 地 址 ， 包 括 代 码 段 寄存 器 的 内 容 。 与 数据 段 宥 存 器 %ds RW. LED SERA N BER 
生 问题 而 产生 GP 异常 ， 使 CPU 加 不 到 用 户 空间 中 去 。 那 么 ， 怎 样 修复 昵 ? 对 CS 和 SS 不 能 通过 使 用 
“PEPE AK) ARLE” RE (Al CS 和 SS 根本 不 接受 空 选择 码 〈 会 产生 GP 异常 )。 所 以 ， 问 题 比 
“popl %ds” 所 可 能 发 生 的 问题 唱 为 闫 重 。 而 解决 的 办 法 ， 则 只 好 通过 do_exit( )( 详 见 “ 进 程 与 进 释 
调度 ”一 章 )， 将 当前 进程 “于 从 保 车 ” 杀 掉 算 了 OM 118—123 行 )。 把 当前 进程 杀 了 以 后 ， 内 核 会 调 
度 另 一 个 进程 成 为 当前 进程 。 所 以 ， 当 再 要 从 系统 空间 返回 庆 用 户 空间 时 ， 是 返 央 到 为 “个 进程 的 用 
户 空间 中 去 ， 那 时 候 此 从 系统 堆栈 中 恢复 的 寄存 此 副本 也 是 男 一 个 进程 的 副本 了 。 

系统 调用 sethostname( ) 的 实现 虽然 很 简单 ， 但 是 从 内 核 中 的 入 口 system call. 到 进入 
sys. sethostname( ) 前 的 这 一 段 代码 ， 以 及 从 sys_sethostname( ) 返 站 后 直到 完成 RESTORE. ALL 中 的 iret 
指令 这 一 段 代码 ， 则 是 所 有 系统 调用 所 共用 的 。 不 管 什么 系统 调用 ， 其 进入 内 核 以 及 退出 内 核 的 过 程 
部 是 相同 的 。 以 后 ， 当 我 们 谈 到 系统 调用 时 ， 就 直接 从 内 核 中 的 实现 ， 如 sys_sethostname( ) 那 样 开始 。 

最 后 ， 偿 要 指出 一 个 读者 已 经 看 到 但 是 未 必 清 楚 地 意识 到 的 事实 ， 屠 就 是 从 内 核 中 可 以 直接 访问 
当前 进程 的 用 户 空间 ， 所 使 用 的 虚拟 地 址 也 与 当 进程 处 丁 用 户 空 间 时 的 地 址 完全 相同 。 当 然 ， 反 过 来 
就 个 可 以 了 。 


3.9 系统 调用 号 与 跳 转 表 


文件 include/asm/unistd.h 为 每 个 系统 调用 定义 了 ce CRUS S. NOVAE S. EA RC UI 
PE: 


8 Bdefine _ NR exit 

9 Sdefine | NR fork 

10 Bdefine | NR read 

11 #define NR write 
12 Hdef ine NR open 

13 Hdefine NR close 
14 #dcefine | NR waitpid 
15 Hdefine | NR creat 


Tn 0» 0014 wd — 
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16 
17 
18 
19 
20 
2] 


#define 
#define 
#dcfine 


#define _ 


#define 
#define 


第 3 章 
NR link 9 
NR unlink 10 
__NR execve ll 
NR_chdir 12 
NR time 13 
NR. mknod 14 


代码 人 在 kernel/sys.c P: 


169 
170 
bl 
172 


asmlinkage long sys_ni_syscall (void) 


1 


return -ENOSYS; 


j 


FP. TAMRA 


至 命令 。 文 件 经 预 处 理 后 就 会 将 后 面 的 657 行 重复 CNR_syscalls-221) 次 ， 也 即 35 次 。 


425 
426 


ENTRY (sys_call table) 
. long 
. long 
. long 
. long 
. long 
. long 
. long 


. long 


. long 


. long 


. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 


. long 


. long 


. long 


. long 


. long 
. long 


SYMBOL NAME(sys ni syscall) 
SYMBOL NAME(sys exit) 
SYMBOL, NAME(sys fork) 
SYMBOL NAME(sys read) 
SYMBOL NAME(sys write) 
SYMBOL NAME(sys open) 
SYMBOL NAME(sys close) 
SYMBOL NAME(sys waitpid) 
SYMBOL NAME (sys creat) 
SYMBOL NAME (sys. Link) 
SYMBOL NAME (sys. unlink) 
SYMBOL NAME(sys execve) 
SYMBOL NAME(sys chdir) 
SYMBOL NAME(sys time) 
SYMBOL. NAME (sys mknod) 
SYMBOL. NAME (sys. chmod) 
SYMBOL NAME(sys lchownl6) 
SYMBOL NAME(sys ni syscall) 
SYMBOL NAME(sys stat) 
SYMBOL NAME(sys tseek) 
SYMBOL NAME(sys gotpid) 
SYMBOL NAME(sys mount) 
SYMBOL NAME(sys oldumount) 
SYMBOL NAME(svs setuidl6) 




















/* 


/* 


/* 


/* 


/* 


0 - old "setup( )" system cal b*/ 
5 */ 
10 */ 
15 */ 


old break syscall holder */ 


20 */ 


系统 调用 的 跳 转 表 是 SPRATT AA, REIN ELA AU E A TF acce RAT A e HS 
fr. ARAL EAE arch/i386/kernel/entry.s 中 定义 的 。 数 组 的 大 小 由 常数 NR_syscalls 决定 ， 该 常数 在 
include/linux/sys.h 中 定义 为 256。 日 前 Linux 共 定 义 了 221 个 系统 调用 ， 其 余 的 30 dup f 14T 
深 加 。 数 组 中 对 凡是 没有 定义 的 下 标 (系统 调用 号 ) 都 放 上 一 个 限 数 指 钊 ， 指 向 sys ni syscal )， 其 


P Ifa] 7 entry.S 中 数组 sys. call table 的 汇编 代码 。 第 656 行 处 的 rept NR_syscalls-221 系 gcc 预 处 
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450 . long SYMBOL NAME(sys getuidl6) 

45] .long SYMBOL NAME(sys stime) /* 25 */ 

452 .long SYMBOL NAME(sys ptrace) 

453 .long SYMBOL NAME(sys alarm) 

454 .long SYMBOL NAME (sys. fstat) 

455 .long SYMBOL NAME (sys. pause) 

456 .long SYMBOL NAME(sys utime) /* 30 */ 

457 . long SYMBOL NAME(sys ni syscall)  /* old stty syscall holder */ 
458 . long SYMBOL NAME(sys ni syscall)  /* old gtty syscall holder */ 
459 .long SYMBOL NAME(sys access) 

460 .long SYMBOL NAME(sys nice) 

461 .long SYMBOL NAME(sys ni syscall)  /* 35 *//* old ftime syscall holder */ 
462 .long SYMBOL NAME(sys sync) 

463 .long SYMBOL NAME(sys kill) 

464 .long SYMBOL NAME(sys rename) 

465 .long SYMBOL NAME(sys mkdir) 

466 .long SYMBOL NAME(sys rmdir) /* 40 x/ 

467 .long SYMBOL NAME(sys dup) 

468 .long SYMBOL NAME(sys pipe) 

469 .long SYMBOL NAME(sys times) 

410 .long SYMBOL NAME(sys ni syscall)  /* old prof syscall holder */ 
471 . long SYMBOL NAME(sys brk) /* 45 */ 

472 . long SYMBOL NAME (sys_setgid16) 

473 . long SYMBOL NAME(sys getgidl6) 

414 .long SYMBOL NAME(sys signal) 

415 .long SYMBOL NAME(sys geteuidl6) 

416 .long SYMBOL NAME(sys getegidl6) /* 50 */ 

477 . long SYMBOL NAME (sys_acct) 

478 . long SYMBOL NAME (sys_umount) /* recycled never used phys( ) */ 
479 .long SYMBOL NAME(sys ni syscall)  /* old lock syscall holder */ 
480 .long SYMBOL NAME(sys ioctl) 

481 .long SYMBOL NAME(sys fcntl) /* 55 x/ 

482 .long SYMBOL NAME(sys ni syscall)  /* old mpx syscall holder */ 
483 .long SYMBOL NAME(sys setpgid) 

484 .long SYMBOL NAME(sys ni syscall)  /* old ulimit syscall holder */ 
485 .long SYMBOL NAME(sys olduname) 

486 .long SYMBOL NAME (sys umask) /* 60 */ 

487 .long SYMBOL NAME (sys. chroot) 

488 .long SYMBOL NAME(sys ustat) 

489 .long SYMBOL NAME(sys dup2) 

490 .long SYMBOL NAME(sys getppid) 

491 .long SYMBOL NAME(sys getpgrp) /* 65 */ 

492 . long SYMBOL NAME (sys_setsid) 

493 . long SYMBOL_NAME (sys_sigaction) 

494 . long SYMBOL NAME(sys  sgetmask) 

495 .long SYMBOL NAME(sys ssetmask) 

496 .long SYMBOL NAME(sys setreuidl6)  /* 70 */ 

497 .long SYMBOL NAME(sys setregidl6) 
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498 
499 
500 
901 
502 
503 
504 
505 
506 
507 
508 
509 
510 
oll 
512 
513 
914 
515 
516 
517 
518 
519 
020 
b21 
522 
523 
524 
925 
526 
921 
928 
020 
530 
531 
032 
533 
534 
935 
536 
537 
538 
539 
940 
941 
542 
943 
044 
945 


. long 
. long 
. ]ong 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
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. long 
. long 
. long 
. long 
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. long 
. long 
. long 
. long 
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. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
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SYMBOL NAME(sys sigsuspend) 
SYMBOL NAME(sys sigpending) 
SYMBOL NAME(sys sethostname) 
SYMBOL NAME(sys setrlimit) /* 
SYMBOL NAME(sys old getrlimit) 
SYMBOL NAME(sys getrusage) 
SYMBOL NAME(sys gettimeofday) 
SYMBOL NAME (sys. settimeofday) 
SYMBOL NAME(sys getgroupsl6)  /* 
SYMBOL NAME(sys setgroupsl6) 
SYMBOL NAME(old select) 

SYMBOL NAME(sys symlink) 

SYMBOL NAME(sys istat) 

SYMBOL NAME(sys readlink) /* 
SYMBOL NAME(sys uselib) 
SYMBOL NAME (sys. swapon) 

SYMBOL NAME(sys reboot) 

SYMBOL NAME(old readdir) 

SYMBOL NAME(old mmap) /* 
SYMBOL NAME (sys_munmap) 

SYMBOL NAME (sys truncate) 

SYMBOL NAME (sys ftruncate) 
SYMBOL NAME (sys_fchmod) 

SYMBOL NAME (sys_fchown16) /* 
SYMBOL NAME(sys getpriority) 
SYMBOL NAME(sys setpriority) 
SYMBOL NAME(sys ni syscall)  /* 
SYMBOL NAME(sys statfs) 
SYMBOL NAME(sys fstatfs) /* 
SYMBOL NAME(sys ioperm) 

SYMBOL NAME (sys socketcall) 
SYMBOL NAME(sys syslog) 

SYMBOL NAME(sys setitimer) 
SYMBOL NAME(sys getitimer) /* 
SYMBOL NAME (sys newstat) 

SYMBOL NAME (sys _newlstat) 

SYMBOL NAME (sys_newfstat) 
SYMBOL NAME (sys_uname) 

SYMBOL NAME (sys_iop1) /* 
SYMBOL NAME (sys vhangup) 

SYMBOL NAME(sys ni syscall)  /* 
SYMBOL NAME(sys vm860ld) 

SYMBOL NAME(sys wait4) 

SYMBOL NAME(sys swapoff) /* 
SYMBOL _ NAME(sys_sysinfo) 

SYMBOL NAME(sys ipc) 

SYMBOL NAME(sys fsync) 

SYMBOL NAME(sys sigreturn) 





























75 */ 


80 */ 


85 */ 


90 */ 


95 x/ 


old profil syscall holder */ 


100 */ 


105 */ 


110 */ 


old “idle” system call */ 


115 */ 
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SYMBOL NAME(sys clone) /* 120 
SYMBOL NAME(sys setdomainname) 
SYMBOL NAME (sys. nowuname) 

SYMBOL NAME(sys modify ldti) 

SYMBOL NAME (sys_adjtimex) 
SYMBOL NAME (sys mprotect) /* 125 
SYMBOL NAME (sys sigprocmask) 
SYMBOL NAME (sys create module) 
SYMBOL. NAME (sys. init module) 

SYMBOL NAME(sys delete module) 
SYMBOL NAME(sys get kernel syms) /* 
SYMBOL NAME(sys quotact]l) 

SYMBOL NAME(sys getpgid) 

SYMBOL NAME(sys fchdir) 

SYMBOL NAME(sys bdflush) 

SYMBOL. NAME (sys sysfs) /* 135 
SYMROL NAME (sys personality) 

SYMBOL NAME(sys ni syscall)  /* for 
SYMBOL NAME (sys_setfsuidi6) 

SYMBOL NAME (sys_set fsgid16) 

SYMBOL NAME (sys_llseek) /* 140 
SYMBOL NAME(sys getdents) 

SYMBOL NAME(sys select) 

SYMBOL NAME(sys flock) 

SYMBOL NAME (sys. msync) 

SYMBOL, NAME (sys. readv) /* 145 
SYMBOL NAME(sys writev) 

SYMBOL NAME(sys getsid) 

SYMBOL NAME (sys. fdatasync) 
SYMBOL NAME (sys. sysct1) 

SYMBOL NAME(sys mlock) /* 150 
SYMBOL. NAME (sys munlock) 

SYMBOL NAME (sys mlockall) 

SYMBOL. NAME (sys munlockall) 
SYMBOL NAME (sys. sched setparam) 
SYMBOL NAME(sys sched getparam) /* 
SYMBOL NAME (sys. sched. set scheduler) 
SYMBOL NAME (sys sched getscheduler) 
SYMBOL NAME(sys sched yicld) 


*/ 


*/ 


130 */ 


*/ 


afs syscall */ 


*/ 


*/ 


*/ 


155 */ 


SYMBOL NAME (sys sched_get_priority_max) 
SYMBOL NAME (sys sched get priority min) /* 160 */ 
SYMBOL. NAME (sys sched rr get interval) 


SYMBOL NAME (sys nanosleep) 
SYMBOL NAME (sys mremap) 

SYMBOL NAME (sys_set.resuid16) 

SYMBOL NAME (sys getresuidl6) /* 165 
SYMBOL NAME (sys_vm86) 

SYMBOL NAME(sys query modulo) 


*/ 
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594 . long SYMBOL NAME (sys poll) 
595 . long SYMBOL NAME (sys nfsservctl) 
596 . long SYMBOL NAME(sys setresgidl6) /* 170 */ 
597 . long SYMBOL NAME (sys. getresgidl6) 
50R . long SYMBOI. NAME (sys prctl) 
599 . long SYMBOL NAME(sys rt sigreturn) 
600 .long SYMBOL NAME(sys rt sigaction) 
601 .long SYMBOL NAME(sys rt sigprocmask)  /* 175 */ 
602 .long SYMBOL NAME(sys rt sigpending) 
603 .long SYMBOL NAME(sys rt sigtimedwait) 
604 .long SYMBOL NAME(sys rt sigqueueinfo) 
3 605 . long SYMBOL NAME(sys rt sigsuspend) 
606 .long SYMBOL NAME(sys pread) /* 180 */ 
1 607 .long SYMBOL NAME(sys pwrite) 
. 608 .long SYMBOL NAME(sys chownl6) 
É 609 .long SYMBOL NAME (sys getcwd) 
610 .long SYMBOL NAME(sys _capget) 
: 611 .long SYMBOL NAME(sys capset) /* 185 x/ 
: 612 . long SYMBOL. NAME (sys, sigaltstack) 
613 . long SYMBOL NAME (sys, sendfile) 
614 .long SYMBOL NAME(sys ni syscall) /* streams! */ 
615 . long SYMBOL NAME(sys ni syscall) /* streams2 */ 
616 .long SYMBOL NAME(sys vfork) /* 190 */ 
617 .long SYMBOL NAME(sys getrlimit) 
618 .long SYMBOL NAME(sys mmap2) 
619 .long SYMBOL NAME (sys_truncate64) 
620 .long SYMBOL NAME(sys ftruncate64) 
621 . long SYMBOL NAME (sys. stat64) /* 195 x/ 
622 .long SYMBOL NAME(sys lstat64) 
q 623 . long SYMBOL NAME(sys fstat64) 
: 624 . long SYMBOL NAME(sys lchown) 
: 625 . long SYMBOL NAME(sys getuid) 
626 .long SYMBOL NAME (sys get.gid) /* 200 */ 
627 .long SYMBOL NAME(sys getceuid) 
628 .long SYMBOL NAME(sys getegid) 
629 . long SYMBOL NAME(sys setreuid) 
630 .long SYMBOL NAME(sys setregid) 
631 . long SYMBOL NAME(sys getgroups) /* 205 */ 
632 .long SYMBOL NAME (sys setgroups) 
633 . long SYMBOL NAME (sys. fchown) 
634 .long SYMBOL NAME(sys setresuid) 
635 .long SYMBOL NAME (sys getresuid) 
636 .long SYMBOL NAME(sys setresgid) /* 210 */ 
637 . long SYMBOL NAME(sys getresgid) 
638 .long SYMBOL NAME(sys chown) 
639 .long SYMBOL NAME(sys setuid) 
640 .long SYMBOL NAME (sys setgid) 
641 .long SYMBOL NAME (sys setfsuid) /* 215 */ 
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642 . long SYMBOL NAME(sys setfsgid) 

643 , long SYMBOL NAME(sys pivot root) 

644 .long SYMBOL NAME(sys mincore) 

645 .long SYMBOL NAME(sys madvise) 

646 .long SYMBOL NAME(sys getdents64) — /* 220 */ 

647 .long SYMBOL NAME (sys fcnt164) 

648 .long SYMBOL NAME (sys ni syscali) /x* reserved for TUX */ 
649 

650 /* 

651 * NOTE!! This doesn’ t have to be exact - we just have 
652 * to make sure we have enough of the “sys ni syscall” 
653 * entries. Don't panic if you notice that this hasn't 
654 * been shrunk every time we add a new system call. 

655 */ 

656 .rept NR syscalls-221 

657 .long SYMBOL NAME(sys ni syscall) 

658 . endr 
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4.1 进程 四 要 素 


要 给 “进程 ”上 一 个 俏 切 的 定义 不 是 件 容易 的 事 。 不 过 ，”- 般 米 说 Linux 系统 中 的 进程 都 具备 下 
列 诸 要 素 : 

(1) 有 有 一段 程序 供 其 执行 ， 就 好 像 场 戏 要 有 个 剧本 一 样 。 这 段 程序 不 定 是 进程 所 专 有 ， 可 以 

与 其 他 进程 共用 ， 就 好 像 不 同 剧团 的 许多 场 演出 可 以 共用 -个 剧本 - 样 。 

Q) 有 起 码 的 “私有 财产 ” 这 就 是 进程 专用 的 系统 堆栈 空间 。 

(3) 有 “户口 ” 这 就 是 在 内 核 中 的 - - 个 task. struct 数据 结构 ， 操 作 系 统 教 科 书 中 常 称 为 “进程 控 
HR”. 有 了 这 个 数据 结构 ， 进 程 才能 成 为 内 核 调度 的 一 一 个 基本 单位 接受 内 核 的 调度 。 同 时 ， 
这 个 结构 又 是 进程 的 “财产 登记 卡 ” 记录 着 进程 所 占用 的 各 项 资源 。 

(4) 有 独立 的 存储 空间 ， 意 味 着 拥有 专 有 的 用 户 空间 ， 进 一 步 ， 还 意味 着 除 前 述 的 系统 空 * [HIE HE 
外 还 有 上 其 专用 的 用 户 空 间 堆 栈 。 注 意 ， 系 统 容 间 是 不 能 独立 的 ， 任 何 进程 都 不 可 能 直接 (不 
通过 系统 调 咱 ) 改 变 系统 空间 的 内 容 除 其 本身 的 系统 空间 堆栈 以 外 )。 

这 由 条 部 是 必 紫 条 件 , 缺 了 其 中 任何 一 一 条 就 不 成 其 为 “进程 ”。 如 果 具 其 备 了 前 面 三 条 而 缺 第 山 条 ， 
那 吕 称 为 “线程 ”。 特 别 地 ， 如 果 完 全 没有 用 户 空间 ， 就 称 为 “内 核 线程 ”(kernel thread): TRKE 
HP 空间 则 融 称 为 “用 户 线程 >。 在 不 致 引起 混淆 的 场合 ， 二 者 也 都 往 御 简称 为 “线程 w 读者 齐 第 2 
章 中 看 到 过 的 kswapd， 就 是 一 个 内 核 线程 。 读 者 要 注意 ， 不 要 把 这 里 的 “线程 ”与 有 些 系统 中 在 用 户 
空间 的 同一 进程 内 实现 的 “ 线 各 ” 相 泥 淆 。 肛 种 线程 显然 不 拥有 独立 、 专 咱 的 系统 堆栈 ， 也 不 作为 
个 调度 单位 直接 党 内 核 调度 。 而 且 ， 醋 然 Linux 内 核 提 供 了 对 线程 的 支持 ，“. 般 也 就 没有 必要 再 齐 进 
程 内 部 ， 即 用 户 空 间 中 自行 实现 线程 。 

为 一 方面 ,进程 与 线程 的 区 分 也 不 是 十 分 严格 的 ， 一 般 在 讲 到 进程 时 常常 也 包括 了 线程 。 事实 上 ， 
在 Linux (以 及 Unix) 系统 中 ， 许 多 进程 在“ 诞生 ”之 初 帮 与 其 父 进程 共用 问 -一 个 存储 空间 ， 所 以 站 
格 党 来 还 是 线程 ， 但 是 定子 进程 可 以 建立 其 月 己 的 存储 空间 ， 并 与 父 进程 分 道 扬 镰 ， 成 为 真正 意义 上 的 
进程 。 青 说 , 线程 也 有 “pid”， 也 有 task. struct 结构 ， 所 以 这 两 个 词 在 使 用 中 有 时候 并 不 产 格 加 以 区 分 ， 
要 根据 上 下 文理 解 共 含意 。 

还 有 ， 在 Linux 系统 中 “进程 ”(process) 和 “ 什 务 ”(task) 是 同 -个 意思 ， 在 内 核 的 代码 中 也 常 
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常温 用 这 两 个 名 词 和 概念 。 例 如 ， 每 “个 进 称 都 此 有 … 个 task. struct 数据 结构 ， 而 其 与 码 却 义 是 pid; 
唤醒 一 个 睡 妥 进程 的 函数 名 为 wake_up_process( )。 之 所 以 有 这 样 的 情况 是 因为 Linux 28 A Unix 和 i386 
系统 结构 ， 而 Unix 中 的 进程 在 Intel 的 技术 资料 中 则 称 为 “任务 ”( 严 格 说 来 有 点 | 多 别 ， 但 是 对 Linux 
和 Unix 的 实现 来 说 是 一 但 事 )，。 

Linux 系统 运行 时 的 第 一 个 进程 是 在 初始 化 阶段 “捏造 ”出 来 的 。 而 此 后 的 进程 或 线程 则 都 是 由 一 
个 业 己 存在 的 进程 像 细胞 分 裂 那样 通过 系统 调用 复制 出 来 的 ， 称 为 “fork”( 分 义 ) E “clone” Ghé). 

E lak uA «I4 P7", B[ task. struct 数据 结构 和 系统 堆栈 之 外 ,一 个 进程 偿 要 有 些 附加 的 资源 。 
例如 ， 上 上 面 说 过 ,“ 独 立 ” 的 存储 空间 意味 着 进程 拥有 用 户 空间 , 因此 就 旨 有 用 十 虚 存 管理 的 mm struct 
数据 结构 以 及 卜 属 的 vm area 数据 结构 ， 以 及 相应 的 页 面 月 录 项 和 页 面 表 。 但 那些 前 是 第 位 的 ， 从 
f+ task struct 的 资源 ， 而 task. struct 数据 结构 则 在 这 方面 起 着 登记 上 的 作用 。 至 本 进程 的 其 体 实 现 ， 
则 在 相当 程度 上 取决 于 宿主 CPU 的 系统 结构 。 

在 转 入 详细 介绍 进程 的 各 个 要 素 之 前 ， 我 们 先 讲 一 卜 i386 系统 结构 所 提供 的 进程 管理 机 制 以 及 
Linux 内 核对 这 种 机 制 的 特殊 运 几 和 处 埋 。 读 者 可 以 结合 第 2 章 中 的 有 关内 容 阅读 。 

Intel 在 i386 系统 结构 的 设计 中 考虑 到 了 进程 《任务 ) 的 管理 和 调度 ， 并 从 便 件 上 支持 任务 问 的 切 
换 。 为 此 日 的 ，Intel Æ i386 系统 结构 中 增设 了 另 一 种 新 的 段 ， 叫 做 “任务 状态 段 ” TSS。 -A TSS R 
说 像 代 码 段 、 数 据 段 等 GE, tie BE 实际 上 却 只 是 一 个 104 字 节 的 数据 结构 、 或 口 控制 块 ， 
用 以 记录 一 个 任务 的 关键 性 的 状态 信息 ， 人 包括: 

o AURIS AREJA KRE) 该 任务 各 通用 寄存 器 的 内 容 。 
e 任务 切换 前 (切入 点 上 ) 该 任务 各 个 段 寄存 器 〈 包 括 ES. CS. SS. DS. FS 和 ES) 的 内 
容 。 
o FZS 《切入 点 上 ) 该 任务 EFLAGS S £481] AUR. 
任务 切换 前 夕 CARE) 该 任务 指令 地 址 寄存 紫 EIP 的 内 容 。 
e ”指向 前 一 个 任务 的 TSS 结构 的 段 选择 码 。 当 前 任务 执行 IRET 指令 时 ， 束 返回 到 由 这 个 段 过 
拌 码 所 指 的 《TSS 所 代表 的 ) 任务 〈 返 串 地 址 则 由 堆栈 决定 )。 
@ ”该 任务 的 LDT 段 选 择 码 ， 忆 指向 任务 的 LDT。 
控制 寄存 器 CR3 AAA, CEA I 9 Aon. 
”三 个 堆栈 指针 , 分 别 为 当 任 务 运 行 于 0 级 .1 级 和 2 级 时 的 堆栈 指针 , 包括 堆栈 段 寄存 器 SSO. 
SS1 利 SS2， 以 及 ESPO, ESP1 和 ESP2 的 内 容 。 注 意 ， 在 CPU 中 只 有 一 个 SS 和 个 ESP 
寄存 此， 但 是 CPU 在 进入 新 的 运行 级 别 时 会 自动 从 当前 任务 的 TSS PRAH SS 和 ESP 
的 内 容 ， 实 现 堆 栈 的 切换 。 
e ”一 个 用 十 程序 跟踪 的 标志 位 T。 当 工 标志 位 为 1 时 ,CPU 惑 会 在 切入 该 进程 时 产生 4 debug 
异常 ， 这 样 就 可 以 在 debug 异常 的 服务 称 序 中 安排 所 需 的 操作 ， 如 加 以 记录 、 显 小 、 竺 等 ， 
e 在 一 个 TSS 段 中 ， 除 了 基本 的 104 学 节 的 TSS 结构 以 外 ， 还 可 以 有 - … 些 附加 的 信息 。 其 中 
之 一 是 表示 VO 权限 的 位 负 。i386 系统 结构 允许 VO 指令 在 比 0 级 为 低 的 状态 下 执行 ， 也 惑 
是 说 可 以 将 外 设 驱动 实现 于 AEEA CO 级 ) 也 非 用 户 (3 级 ) 的 空间 中 ， 这 个 位 图 区 
是 用 十 这 个 口 的 。 另 : :个 是 “中 断 重 定向 位 图 ”， 用 于 vm86 模式 。 

像 其 他 的 “ 段 ” 一 样 ，TSS 也 上 葛 在 段 描述 表 中 有 个 表 项 。 不 过 TSS 的 描述 项 只 能 在 GDT 中 ， 出 不 
能 放 在 任何 一 个 LDT 中 战 IDT 中。 如 果 通 过 一 个 段 选 择 项 访问 个 TSS， 而 选择 项 中 的 T1 标志 位 为 
1 (表示 使 用 LDT)， 就 会 产生 一 次 “总 保护 ”GP SPAT. TSS 描述 项 的 结构 与 其 他 的 段 描述 项 基本 相同 
(BARI), HA :个 B (Busy) 标志 位 ,表示 相应 TSS 所 代表 的 任务 是 省 正 看 运行 或 省 下 被 中 断 。 
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为 外 ，CPU 中 还 增设 了 一 个 “任务 寄存 器 ”TR， 指 向 当前 任务 的 TSS。 相 应 地 ， 还 增加 了 一 条 指 
令 LTR, Xf TR 寄存 器 进行 装 入 操作 。 像 CS 和 DS 一 样 ，TR 也 有 一 个 不 可 见 的 部 分 ， 得 当 将 … 个 段 
选择 码 狼 入 公 TR 中 时 ，CPU 就 自动 找到 所 选择 的 TSS 描述 项 并 将 其 装 入 到 TR 中 的 不 可 见 部 分 ， 以 
加 速 以 后 对 该 TSS 段 的 访问 。 

LA. 在 IDT 才 中 ， 除 中 断 门 、 隐 阱 门 和 调用 门 外 ， 偿 定义 了 种 “任务 门 ”。 任务 门 中 包含 着 一 
^ TSS 段 选择 但 。 当 CPU AP BT zEXE :个 任务 门 时 ， 就 会 将 任务 门 中 的 段 选 择 们 自动 装 入 TR， 使 
TR 指 问 新 的 TSS， 并 完成 任务 切换 。CPU 还 可 以 通过 IMP 和 CALL 指令 实现 任务 切换 ， 当 跳 转 或 调 
用 的 日 标 段 (代码 段 ， 实 际 上 指向 GDT 表 中 的 A TSS 描述 项 时 ， 就 会 引起 -次 任务 切换 。 

Intel 的 这 种 设计 确实 很 周到 ， 也 为 任务 切换 提供 了 一 个 非常 简 泪 的 机 制 。 但 是 ， 请 读者 注意 ， 由 
CPU 自动 完成 的 这 种 任务 切换 并 不 是 像 读 者 可 能 谋 以 为 的 那样 只 相当 于 “ -条 指令 ”。 实 际 | 1386 
的 系统 结构 基本 上 是 CISC 的 ， 而 通过 IMP 指令 或 CALL 指令 《或 中 断 ) 完成 任务 切换 的 过 程 可 以 说 
是 典 模 的 、 世 至 是 极端 的 “ 复 傈 指令 ”执行 过 程 ， 其 执行 过 程 长 达 300 多 个 CPU 时 饰 周期 ( -条 POP 
BO a 12 个 CPU 时 钟 周期 )。 在 执行 的 过 程 路 ，CPU 实际 上 做 了 所 有 可 能 需要 做 的 事 ， 放 其 中 有 的 圳 
在 一 定 的 条 件 下 本 米 是 可 以 简化 的 , 有 的 事 则 可 能 在“: 定 的 条 件 下 应 该 按 不 同 的 方式 组 合 。 所 以 ，i386 
CPU 所 提供 的 这 种 任务 切换 机 制 就 好 像 是 一 种 “高 级 语言 ”的 成 分 。 你 固然 可 以 用 它 ， 但 对 于 操作 系 
统 的 设计 和 实现 而 言 ， 你 往往 会 选择 “汇编 语音 ”来 实现 这 个 机 制 ， 以 达到 和 更 高 的 效率 和 更 大 的 光 活 
性 。 更 重要 的 是 ,任务 的 切换 往往 不 是 孤立 的 ， 常 常 跟 其 他 的 操作 幅 系 在 一 起 。 例 如 , 在 Unix 和 Linux 
系统 中 ， 任 务 切 换 就 只 发 生 于 系统 空间 ， 因 而 与 系统 调用 和 中 断 密切 联系 在 “起 ， 并 是 许 多 操作 可 
以 合并 。 

ANAT i386 所 提供 的 许多 其 他 功能 FE, REAR ABA, Linux 内 核实 际 上 并 不 使 用 i1386 CPU ty 
件 提 供 的 任务 切换 机 市。 不 过 ， 由 十 i386 CPU 要 求 软件 设置 TR 及 TSS， 内 核 中 便 只 好 “未 过 场 ”地 
KEA TR 及 TSS 以 满目 CPU 的 紫 求 。 但 是 ， 内 核 中 并 不 使 用 任务 门 、 也 不 允许 使 用 IMP 或 CALL 
指令 实施 任务 切换 。 内 核 只 是 在 初始 化 阶段 设 首 TR， 使 之 指向 :个 TSS， 从 此 以 后 就 再 不 改变 TR 的 
AFT. EER, GFA CPU (如果 有 多 个 CPU 的 话 ) 在 初始 化 以 后 的 全 部 运行 过 程 中 永远 各 白 使 用 
el’ 个 TSS。 同 时 ， 内 核 也 不 依靠 TSS 保存 每 个 进程 切换 时 的 寄存 器 副本 ， 人 出 是 将 这 些 寄 存 吕 的 曾 本 
保存 在 各 个 进程 白 己 的 系统 空间 堆栈 路 ， 就 如 读者 在 第 3 章 中 所 看 到 的 那样 。 

KARE OK, TSS 中 的 绝 大 部 分 肉 容 已 经 失去 了 原 米 的 意义 。 可 是 ， 在 第 3 Spot, "PCPU 因由 
其 或 系统 调 川 而 从 用 户 空 间 进 入 系统 空间 时 ， 会 由 于 运行 级 别 的 变化 而 卜 动 更 换 堆栈 。 而 新 的 堆栈 指 
付 ， 包 括 堆栈 段 寄 存 器 SS 的 内 容 和 堆栈 指针 寄存 器 ESP ROA A, RU] “CUA? ESIE TSS. IB E 
f£ Linux 中 只 使 用 两 个 运行 级 别 ， 即 0 级 和 3 级 ， 所 以 TSS THAW CU 2) BERE 
排 栈 指针 副本 也 拓 去 了 意义 。 于 症 ， 对 十 Linux 内 核 来 说 ，TSS 中 有 意义 的 就 只 剩 下 了 0 级 的 堆栈 指 
针 ， 也 就 是 SSO 和 ESPO VAULT «Intel 原来 的 意图 是 让 TR 的 内 容 ， 随 着 不 同 的 TSS， 随 者 任务 的 切换 
而 坪 马 灯 似 地 转 。 可 是 在 Linux 内 核 中 却 变 成 了 “ 铁 打 的 营盘 流水 的 兵 ”， 就 一 个 TSS， 像 座 上 营盘 ， 
一 经 建立 就 冉 也 不 动 了 。 向 插 面 的 内 容 ， 也 就 是 当前 任务 的 系统 维 栈 指针 ， 则 随 着 进程 的 调度 切换 而 
流水 似 地 变动 。 这 里 的 原因 让 十 : 改变 TSS 中 SSO fI ESPO 所 化 的 开销 比 通 过 装 入 TR BLU ^ TSS 
要 小 得 多 。 因 此 ， 住 Linux 内 核 中 ，TSS 并 不 是 属于 其 个 进程 的 资源 ， 而 是 个 局 性 的 公共 资源 。 在 多 
处 理 右 的 情况 下 ， 尽 管内 核 中 确实 有 多 个 TSS， 但 是 每 个 CPU 仍旧 只 有 CN TSS, -经 装 入 就 不 再 变 
Ta 

那么 ， 这 个 TSS AEA ARAM? 请 看 include/asm-i386/processor.h 中 对 INIT. TSS lo X: 

392 &define INIT TSS 1 \ 
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393 0,0, /* back link, blh */ \ 

394 sizeof(init stack) + (long) &init stack, /* espO */ V 
395 .. KERNEL DS, 0, /* ssÜ */ \ 

396 0,0,0,0,0,0, /* stackl, stack2 */ \ 

397 0, /* cr3 */ \ 

398 0,0, /* eip,eflags */ \ 

399 0,0,0,0, /* eax, ecx, edx, ebx */ \ 

400 0,0,0,0, /* esp, ebp, esi, edi */ \ 

401 0,0,0,0,0,0, /* es, cs, ss */ \ 

402 0,0,0,0,0,0, /* ds, fs, gs */ \ 

403 = LDT(0),0, /* ldt */ \ 

404 0, INVALID IO BITMAP OFFSET, /* tace, bitmap */ \ 
405 10, } /* ioperm */ A 

400  ] 


这 里 把 系统 中 第 一 个 进程 的 SS0 设置 成 “KERNEL_DS, sf #2 ESPO 设置 成 指向 &init_stack 的 顶端 。 
对 INIT_TSS 的 引用 则 在 kernel/init_task.c 中 给 出 : 


26 /* 

27 * per-CPU TSS segments. Threads are completely 'soft' on Linux, 

28 * no more per-task TSS’s. The TSS size is kept cacheline-aligned 
29 * so they are allowed to end up in the . data. cacheline aligned 

30 * section. Since TSS's are completely CPU-local, we want them 

91 * on exact cacheline boundaries, to eliminate cacheline ping-pong. 
32 */ 

33 struct tss struct init tss[NR CPUS] cacheline aligned - 


( [0 ... NR CPUS-1] = INIT TSS }; 


结构 数组 init tss 的 大 小 为 NR_CPUS， 即 系统 中 CPU 的 个 数 。 每 个 TSS 的 内 容 都 相同 ， 都 由 
INIT TSS 定义 。 此 外 ， 每 个 TSS 的 起 始 地 址 玫 与 商 速 缓存 中 的 缓冲 行 对 齐 。 
数据 结构 tss. struct 是 在 processorh 中 定义 的 ， 它 反映 了 TSS 上段 的 结构 : 


327 struct tss struct { 


328 unsigned short back link, | blh; 
329 unsigned long esp0: 

330 unsigned short ss0, ssh; 

331 unsigned long espl; 

332 unsigned short ssl,  ssih; 

333 unsigned long  esp2; 

334 unsigned short ss2, | ss2h; 

335 unsigned long __er3; 

336 unsigned long eip; 

337 unsigned long  eflags; 

338 unsigned long eax, ecx, edx, ebx; 
339 unsigned long esp; 

340 unsigned long ebp; 

341 unsigned long esi; 
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342 unsigned long edi; 

343 unsigned short es, esh; 

344 unsigned short cs, __csh; 

345 unsigned short ss, ssh; 

346 unsigned short ds, dsh; 

347 unsigned short fs, fsh; 

348 unsigned short gs, _ gsh; 

349 unsigned short ldt, _ ldth; 

350 unsigned short trace, bitmap; 

351 unsigned long io bitmap[IO BITMAP SIZE+1]; 
352 /* 

353 * pads the TSS to be cacheline-aligned (size is 0x100) 
354 */ 

355 unsigned long cacheline filler[5]; 

456 Ji 


前 面 讲 过 ， 每 个 进程 都 有 一 个 task stuct 数据 结构 和 一 片 用 作 系统 空间 堆栈 的 存储 室 间 。 这 二 者 
Ub 不可, 又 有 紧密 的 联系 , 所 以 在 物理 存储 空间 中 也 连 人 在 一 起 , 内核 在 为 每 个 进程 分 配 task: struct 
结构 时 ， 实 际 上 分 配 两 个 连续 的 物理 页 面 ( 共 8192 字 节 )。 这 两 个 页 面 的 底部 用 作 进程 的 task, struct 
结构 ， 而 在 结构 的 上 而 就 用 作 进程 的 系统 守 间 堆栈 ， 见 图 4.1。 


i _ 系统 空间 上 崔 栈 (大 约 7KB) 
其 个 连续 的 物理 页 面 = 
(8KB) 


ru AA struct task struct 【大 约 1KB) 


图 4. 1 进程 系统 堆栈 示意 图 


数据 结构 task, struct 的 大 小 约 IK 宁 节 ， 所 以 进程 系统 空间 堆栈 的 大 小 约 为 7K 字 节 。 注 意 ， 系 统 
到 间 堆 栈 的 空间 不 像 用 户 空间 堆栈 那样 可 以 在 运行 时 动态 地 扩展 ( 见 第 2 章 )， 而 是 静态 地 确定 了 的 。 
所 以 ， 在 中 断 服务 程序 、 内 核 软 中 断 上 服务 程序 以 及 其 他 设备 驱动 程序 的 设计 中 ， 应 注意 不 能 让 这 些 函 
RUREAVR, 同时 ， 在 这 些 函 数 中 也 人 不宜 使 用 信 多 、 太 大 的 局 部 变量 。 像 下面 程序 中 这 样 的 局 部 变量 
就 应 该 避免: 


int something( ) 


{ 
char buf [1024]; 


s 6 © © p LC 
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这 里 的 buf EARE, MAEHE, u FTRT IK 字 节 ， 显 然 是 不 合适 的 。 
进程 task struct 绍 构 以 及 系统 空间 堆栈 的 这 种 特殊 安排 ,决定 了 内 核 中 一 些 宏 操 作 的 定义 


Cprocessor.h ): 


446 ttdef'ine THREAD SIZE (2*PAGE SIZE) 
447 +#define alloc, task struct( ) ((struct task struct *) \ 

get free pages(GTP KERNEL, 1)) 
448 #define free task struct(p) free pages((unsigned long) (p), 1) 


THREAD SIZE 定义 为 两 个 页 面 ， 表 示 每 个 内 核 线程 《一 个 进程 必 定 同时 又 是 一 个 内核 线程 ) 的 
这 两 项 基本 资源 所 占 的 物理 存储 空间 大 小 。 至 十 alloc_task_struck( ) 的 实现 ， 读 者 也 许 会 想像 成 这 样 


struct task struct *t& = kmalloc(sizeof (struct task struct)) ; 


实际 上 却 不 是 ， 这 是 因为 所 分 也 的 并 不 仅仅 是 task. struct. 数据 结构 的 大 小 ， 而 是 连同 系统 空间 堆栈 所 
需 的 空间 一 起 分 配 。 注 意 ，__get_free_pages( ) 中 第 二 个 参数 的 值 1 表示 2l, ist WS nii. 

当 进 程 企 系统 空间 运行 时 ， 常 常 需要 访问 当前 进程 白 身 的 task struct 数据 结构 。 为 此 县 的 ， 内 核 
中 (current.h) 定 义 了 一 个 宏 操 作 current, PEHA [8] 7 8j EFE task, struct 结构 的 指针 : 


6 static inline struct task struct * get current (void) 

| 

8 struct task struct *current: 

9 | asm  ('andl %%esp, %0; ":"—r" (current) : "0" C8191UL)): 
10 return current; 

1l } 

12 

13 #define current get current( ) 


第 9 行 通过 将 当前 的 堆栈 指针 寄存 器 ESP 的 内 容 与 8191UL (0xffffte00〉 相 “与 ”而 得 到 当前 进 
FE task_struct 结构 的 起 始 地 址 〈 汇 编 代 码 的 解释 可 参 丰 第 2 章 和 第 3 章 中 的 儿 个 例子 )。 络 合 前 血 的 图 
4.1 和 说 明 ， 读 首 应 不 难 理解 为 什么 这 样 忠 品 以 得 到 所 需 的 地 址 。 

那么 ， 为 什么 不 拒 这 地 直 放 在 一 个 全 局 量 中 ， 使 得 每 次 调度 一个 新 的 进 堡 运行 时 就 将 该 进程 的 
task struct 结构 的 起 始 地 址 写 入 这 个 变量 ， 以 后 便 随 时 可 用 ， 这 样 不 是 更 有 效 吗 ? 答案 恰恰 相反 。 一 条 
AND 指令 的 执行 内 需 4 个 CPU 时 钟 周期 ， 而 一 条 从 寄存 器 到 寄存 器 的 MOV 指令 也 才 2 个 CPU 时 钟 
周期 ， 所 以 ， 像 这 样 侍 需 要 时 才 临 时 把 化 计算 出 米 反 而 效率 更 高 。 读 者 从 这 里 也 可 以 看 出 ， 高 水 平 的 
系统 程序 员 的 “抠门 ”真是 到 了 极点 。 

与 此 相 类 似 的 ， 还 有 华 进 入 中 断 和 系统 调用 时 所 引用 的 宏 操 作 GET CURRENT, JB 4 
include/asm-i386/hw_irq.h 中 定义 的 : 


113 Hdefine GET_CURRENT \ 


114 “movl *esp, %ebx\n\t” \ 
115 “andl $-8192, %ebx\n\t” 
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我 们 华 第 2 章 中 跳 过 了 对 这 段 称 序 的 解释 ， 因 为 那 时 还 没有 讲 到 进程 的 系统 空间 堆栈 与 其 
task, struct 结构 之 问 的 关系 。 
task struct 的 定义 在 include/linux/sched.h 中 给 出 : 


277 struct task struct | 


278 /* 

219 * offsets of these are hardcoded elsewhere . touch with care 
280 */ 

281 volatile long state; /* -1 unrunnable, 0 runnable, >0 stopped */ 
282 unsigned long flags; /* per process lags, defined below */ 
283 int sigpending; 

284 mm segment t addr limit; /* thread address space: 

285 Q-OxBFFFFFFF for user-thead 

286 Q-OxFFFFFFFF for kernel-thread 

287 */ 

288 struct exec domain *exec domain; 

289 volatile long need resched; 

290 unsigned long ptrace; 

291 

292 int lock depth; /* Lock depth */ 

293 

294 /* 

295 * offset 32 begins here on 32-bit platforms. We keep 

296 * all fields in a single cacheline that are needed for 

297 * the goodness( ) loop in schedule( ). 

298 */ 

299 long counter: 

300 long nice; 

301 unsigned long policy; 

302 struct mm_struct. *mm; 

303 int has epu, processor; 

304 unsigned long cpus allowed; 

305 /* 

306 * (only the ‘next’ pointer fits into the cachcline, but 
307 x that's just fine.) 

308 */ 

309 struct list head run list; 

310 unsigned long sleep time; 

sll 

312 struct task struct *next task, *prev_task; 

313 struct mm struct *active mm; 

314 

315 /* task state */ 

316 struct linux binfmt *binfmt; 

317 int exit code, exit signal; 

318 int pdeath signal; /* The signal sent when the parent dies */ 
319 /* 999 */ 
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337 
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340 
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342 
343 
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345 
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350 
351 


352 
353 
304 
355 
356 
397 
358 
359 
360 
361 
362 
363 
364 
365 
366 
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unsigned long personality; 

int dumpable:1; 

int did_exec:1; 

pid t pid; 

pid_t pgrp; 

pid t tty old perp; 

pid t session; 

pid t tgid; 

/* boolean value for session group leader */ 

int leader; 

/* 

* pointers to (original) parent process, youngest child, younger sibling, 
* older sibling, respectively. (p->father can be replaced with 
* p->p_pptr~>pid) 

*/ 

struct task struct *p opptr, *p pptr, *p cptr, *p ysptr, *p ospir; 
struct list head thread group; 


/* PID hash table linkage. */ 
struct task struct *pidhash next; 
struct task struct **pidhash_pprev; 


wait queue head t wait chldexit; /* for wait4( ) */ 
struct semaphore *vfork sem; /* for vfork( ) */ 
unsigned long rt priority; 
unsigned long it real value, it prof value, it virt value; 
unsigned long it real incr, it prof incr, it virt incr; 
struct timer list real timer; 
struct tms times; 
unsigned long start_time; 
long per cpu utime[NR CPUS], per cpu stime[NR CPUS); 
/* mm fault and swap info: this can arguably be seen as 
either mm-specific or thread-specific */ 
unsigned long min flt, maj flt, nswap, cmin flt, cmaj flt, cnswap; 
int swappable: |; 
/* process credentials */ 
uid t uid, euid, suid, fsuid: 
gid t gid, egid, sgid, fsgid; 
int ngroups; 
gid t — groups NGROUPS] ; 
kernel cap t — cap effective, cap inheritable, cap permitted; 
int keep capabilities:l; 
Struct user struct *user; 
/* limits */ 
struct rlimit rlim[RLIM NLIMITS] ; 
unsigned short used math; 
char comm(16]:; 
/* file system info */ 
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367 int link count; 

368 struct tty struct *tty; /* NULL if no tty */ 
369 unsigned int locks; /* How many file locks are being held */ 
370 /* ipc stuff */ 

371 struct sem undo *semundo; 

372 struct sem queue *semsleeping; 

313 /* CPU-specific state of this task */ 

374 struct thread struct thread; 

375 /* filesystem information */ 

376 struct fs struct *fs; 

371 /* open file information */ 

378 struct files struct *files; 

379 /* signal handlers */ 

380 spinlock t sigmask lock; /* Protects signal and blocked */ 
381 struct signal struct *sig: 

382 

383 sigset t blocked; 

384 struct sigpending pending; 

385 

386 unsigned long sas ss sp; 

387 size t sas ss size; 

388 int (knotifier) (void *priv); 

389 void *notifier data; 

390 sigset t *notifier mask; 

391 

392 /* Thread group tracking */ 

393 u32 parent exec id; 

394 u32 self exec id; 

395 /* Protection of (de-)allocation: mm, files, fs, tty */ 
396 spinlock t alloc lock; 

397 F; 


先 把 结构 中 几 个 特别 重要 的 成 分 介绍 ~-- 人 下， 其余 则 留待 以 后 用 到 的 时 候 再 来 介绍 。 这 些 成 分 大 体 


二 
第 281 行 的 state 表示 进程 当前 的 运行 状态 ， 有 具体 定义 见 sched.h: 


84 Hdefine TASK RUNNING 

85 &define TASK INTERRUPTIBLE 
86 #define TASK UNINTERRUPTIBLE 
87 #define TASK ZOMBIE 

88 #define TASK STOPPED 


Co H- M- CO 


TASK_UNINTERRUPTIBLE HIRAET ^ ye rti" 而 不 受 “ " ^x" (signal, dis AMNEM 的 
内 核 中 提供 了 不 同 的 函数 ， 让 


和 打扰， 而 TASK_INTERRUPTIBLE 则 可 以 央 “ 信 号 ”的 到 来 而 被 唤醒 。 


一 个 进程 进入 不 同 深度 的 睡眠 或 将 进程 从 睡 虐 中 唤醒 。 具 体 地 说 ， 上 因 数 sleep_on( ) 利 wake_up( ) 几 十 
. 277 . 


vh 


V 


Linux 内 核 源 代 码 情景 分 析 《〈 |. 册 》 

度 睡 眠 ， 而 interruptible_sleep_on( ) 利 wake, up. interruptible( OMH F 7/3 BEER. VX RE REAR -- Me FT M 
界 区 和 关键 性 的 部 位 ， 人 而 “可 中 断 ” 的 睡眠 那 就 是 通用 的 了 。 特 别 ， 冶 进程 在 “阻塞 忻 ”(blocking ) 
的 系统 调用 中 等 待 某 一 事件 发 生 时 ， 应 该 进入 “可 中 断 ” 睡 眼看 不 应 深度 睡眠。 例如 ， 冯 进程 等 符 操 
作 人 员 按 某 个 键 的 时 候 ， 号 不 应 该 进入 深度 睡 眼 ， 否 则 吕 不 能 对 别 的 事件 作出 反应 ， 别 的 进程 就 不 能 
通过 发 一 个 售 号 来 “ 杀 ?” 掉 这 个 进程 了 .。 还 应 该 注意 , 这 里 的 INTERRUPTIBLE 或 UNINTERRUPTIBLE 
PR “PBT” SEI KA, DER a 即 唤 醒 。 不 过 ， 所谓 其 他 事件 主要 是 “ 伟 
号 ”， 而 信号 的 概念 灾 际 上 与 中 断 的 概念 是 相间 的 ， 所 以 这 里 所 滑 INTERRUPTIBLE 也 是 指 这 种 “ 软 中 
Hr" mn. 

TASK RUNNING RHD Abos 个 进程 止 在 执行 中 ， 或 者 说 这 个 进程 束 是 “当前 进程 "”， 而 是 
表示 这 个 进程 可 以 被 调 眠 执行 而 成 为 当前 进程 。 当 进程 处 于 这 样 的 可 执行 (或 就 绪 ) 状态 时 ， 内 核 就 
将 该 进程 的 task. struct 结构 通过 其 队列 头 run_list 645 309 íT) HA 个 “运行 队列 ”。 

TASK_ZOMBIE 状态 表示 进程 已 经 “去 眉 ”(exit) 而 “ 门 ” 疝 未 注销 。 

TASK STOPPED 主 此 用 于 调试 目的 。 进 程 接收 划一 个 SIGSTOP 信和 与 后 就 将 运行 状态 改 成 
TASK_STOPPED 而 进入 “ 排 起 ”状态 ， 然 后 在 接收 划一 个 NEGO 7 时 又 恢复 继续 运行 。 

在 本 章 “ 进 程 的 调度 与 切换 ”一 节 中 有 -一 个 进程 的 状态 转换 术 意 图 (第 357 EL 4.40, RBA 
先 翻 过 去 看 一 下 。 

第 282 行 中 的 flags 也 是 反映 进程 状态 的 信息 ， 但 并 不 是 运行 状态 ， 亩 是 与 管理 有 关 的 其 他 信息 。 
这 些 标 志 位 也 是 在 sched.h 中 定义 的 ; 


399 /* 

400 * Per process flags 

401 */ 

402 Hdefine PF ALIGNWARN 0x00000001 /* Print alignment warning msgs */ 
403 /* Not implemented yet, only for 486*/ 

404 8define PF STARTING 0x00000002 /* being created */ 

405 Hdefine PF EXITING 0x00000004 /* getting shut down */ 

406 #define PF FORKNOEXEC 0x00000040 /* forked but didn't exec */ 

407 8deline PF SUPERPRIV 0x00000100 /* used super-user privileges */ 
408 &dofine PF DUMPCORE 0x00000200 /* dumped core */ 

409 #define PF SIGNALED 0x00000400 /* killed by a signal */ 

410 &define PF MEMALLOC 0x00000800 /* Allocating memory */ 

411 #define PF VFORK 0x00001000 /* Wake up parent in mm release */ 
412 

413 &define PF USEDFPU 0x00100000 /* task used FPU this quantum (SMP) */ 


TREES BB A 28 BE T eT OT A, XXC POSUI EET. 


ER IRI state 和 flags 以 外 ， 反 映 当 前 状态 的 成 分 还 和 下 和 面 这 人 么 

sigpending 一 一 家 小 进程 收 到 了 “信和 与 ”但 前 末 处 埋 。 meon ABER I A :与 信和 与 队列 有 六 
sigqueue. sigqueue tail. sig 等 指针 以 及 sigmask_lock、signal、blocked 等 成 分 。 请 详 见 “ 进 
Feed" m te — i, AR ASE TAY RR. 

counte HARAR, FEL AFERE SUR gu. 

need_sched 一 一 与 调度 有 关 ， 表 不 CPU 从 系统 空间 返回 用 户 空 间 前 夕 要 进行 一 次 调度 。 
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上 列 当 前 状态 都 反映 了 进程 的 动态 特征， 偿 有 一 些 则 反 遇 静态 特征 ; 

add_limit 一 一 典 仓 地 址 空间 的 上 限 。 对 进程 而 阁 是 其 用 户 空间 的 上 限 ， 所 以 是 Oxbfff ffff， 对 内 核 
线程 而 言 则 站 系统 空间 的 上 限 ， 所 以 是 0xffff ffff。 

Personality 由 于 Unix 有 许多 不 同 的 版 本 和 变种 , 应 用 程序 也 器 有 了 适用 范围 , 例如 Unix SVR4 
的 应 用 程序 就 未 必 与 为 Linux 开发 的 其 他 软件 完全 兼容 。 所 以 根据 执行 程序 的 不 同 ， 每 个 进 
程 都 有 其 “个 性 ”。 文 件 include/linux/personality.h 中 定义 了 有 关 的 常数 : 





/* Flags for bug emulation. These occupy the top three bytes. */ 


#define STICKY TIMEOUTS 0x4000000 
#define WHOLE SECONDS 0x2000000 
#define ADDR LIMIT 32BIT 0x0800000 


/* Personality types. These go in the low byte. Avoid using the top bit, 
* it will conflict with error returns. 


*/ 
Hdefine PER MASK (Ox00f't) 

#define PER LINUX (0x0000) 
&define PER LINUX 32BIT — (0x0000 | ADDR LIMIT 32BIT) 
#definc PER SVR4 (0x0001 , STICKY TIMEOUTS) 
Hdefine PER SVR3 (0x0002 | STICKY TIMEOUTS) 


define PER SCOSVR3 (0x0003 | STICKY TIMEOUTS | WHOLE SECONDS) 
#define PER WYSEV386 . (0x0004 | STICKY TIMEOUTS) 


ttdefine PER_ISCR4 (0x0005 | STICKY TIMEOUTS) 

Hdefine PER BSD (0x0006) 

#define PER SUNOS (PER BSD i STICKY TIMEOUTS) 
#define PER XENIX (0x0007 © STICKY TIMEOUTS) 


#define PER LINUX32 (0x0008) 

#definc PER IRIX32 (0x0009 | STICKY TTMEOUTS) /* IRIX5 32-bit x/ 
üdefine PER IRIXN32 (0x000a , STICKY TIMEOUTS) /* IRIX6 new 32-bit */ 
tdefine PER IRIX64 (0x000b | STICKY TIMEOUTS) /x IRIX6 64-bit */ 
#define PER_RISCOS (0x000c) 

Hdefine PER SOLARIS  (0x000d | STICKY TIMEOUTS) 





exec_domain—— J personality 以 外 ， 应 用 程序 还 有 一 些 共 他 的 版 本 间 的 差异 ， 从 而 形成 了 不 辐 
的 “执行 域 ” 这 全 指针 就 指 则 描述 本 进程 所 属 执行 域 的 数据 结构 。。 

binfmt 一 一 应用 程序 的 文件 格式 ， 如 aout. elf 等 。 详 见 “ 系 统 调用 exec” -- Ti. 

洋 见 “系统 调用 exit( ) 与 wait4( )”。 








exit code, exit signal. pdeath signal 

pid 一 一 进程 号 。 

pgrp. session, leader-——“4 个 用 户 登 录 到 系统 时 ， 斌 半 妈 了 一 个 进程 组 《session)， 此 后 创建 的 
进程 部 属于 这 同一 个 session. UES, AF TEET Dit mBGÉ" S ATE GE. On “Isl we -1”， 
从 而 形成 进程 组 。 详 见 “ 系 统 调用 exec” - 节 。 

priority、rL_priority 一 一 优先 级 别 以 及 “实时 ”优先 级 别 ， 洋 见 “ 进 程 的 调度 与 切换 ” 

适用 于 本 进程 的 调度 政策 ， 详 见 “ 进 程 的 调度 与 切换 ”。 

与 进程 组 〈session) AX, W, “RAAH exit( ) 与 wait4( ) ". 








policy 





parent exec id. self exec id 
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uid, 


cap effective, cap_inheritable, cap permitted 


Linux AJ RS sco CEA 
主要 与 文件 操作 权限 有 关 ， 见 “文件 系统 ”一 





euid, suid, fsuid, gid, egid, sgid, fsgid 
章 。 





- 般 进程 都 不 能“ 为所欲为 ”而 是 各 目 被 赋 了 了 
了 各 种 不 同 的 权限 。 例 如 ，- 个 进程 是 合 可 以 通过 系统 调用 prace ) 跟 踪 男 一 个 进程 ， 叉 是 由 
该 进程 是 否 具 有 CAP_SYS_PTRACE 授权 决定 的 ;一 个 进程 是 否 有 权重 新 引导 操作 系统 ， 则 
取决 于 该 进程 是 否 共 有 CAP_SYS_BOOT 授权 。 这 样 ， 就 把 进程 的 各 种 权 跟 分 细 了 ， 而 不 再 
是 笼统 地 取决 于 :个 进程 是 否 是 “特权 用 户 ” 进 程 。 文 件 include/linux/capability.h 中 定义 了 许 
多 这 样 的 权限 ， 代 人 码 的 作者 还 加 了 相当 详细 的 省 解 〈 详 见 “ 文 件 系 统 ” 一 章 )。 每 一 种 权限 部 
由 一 个 标志 位 代表 ， 内 核 路 提供 了 一 个 inline efi capable( )， 用 米 检 验 当 亲 进 程 是 否 其 有 某 
种 权限 。 如 capable(CAP_SYS_BOOT)， 束 是 丛 查 当前 进程 是 否 有 权重 引导 操作 系统 《返回 非 
0 表示 有 权 )。 值 得 注意 的 是 ， 对 操作 权限 的 这 种 划分 与 文件 访问 权限 结合 在 起， 形成 了 系 
统 安 全 性 的 基础 。 在 夫 今 的 网 络 时 代 ， 这 种 安全 性 正人 在 变 得 愈 来 愈 重要 ， 而 这 方 面 的 研究 与 
发 展 也 是 一 个 重要 的 课题 。 





User 一 一 指向 一 个 user struct 结构 ， 该 数据 结构 代表 着 进程 所 届 的 用 户 。 注 意 这 跟 Unix 内 核 中 每 


个 进程 的 user 结构 是 两 码 事 。Linux 内 核 中 的 user 结构 是 非常 简单 的 , 详 见 “系统 调用 fork( )” 
ed. 


rlim 一 一 这 是 一 个 结构 数组 ， 表 明 进 程 对 各 种 资源 的 使 用 数量 所 受 的 限制 。 读 者 在 “存储 管理 ”一 


40 St 
41 
42 
43 j}; 


x i3 


益 中 山 经 看 到 过 其 应 用 。 数 据 结 构 rlimit 是 在 include/linux/resource.h 中 定义 的 : 


ruct rlimit | 
unsigned long rlim cur; 
unsigned long rlim max; 


86 环境 而 言 ， 进 程 可 用 资源 共有 RLIM_NLIMITS JH, BD 10 项 。 每 种 资源 的 限制 在 文件 


linux/include/asm/resource.h 中 给 出 : 


4 fk 

5 * 

6 * 

了 

8 ad 

9 #d 
10 #d 
11 &d 


12 &d 
13 &d 


15 8d 
16 ad 
17 #d 
18 #d 
19 

20 #d 


Resource limits 
/ 
efine RLIMIT_CPU 0 /* CPL time in ms */ 
efine RLIMIT FSIZE ] /* Maximum filesize */ 
efine RLIMIT DATA 2 /* max data size */ 
efine RLIMIT STACK 3 /* max stack size */ 
efine RLIMIT CORE 4 /* max core file size */ 
efine RLIMIT RSS 5 /* max resident set size */ 

i4 #define RLIMIT NPROC 6 /* max number of processes */ 
efine RLIMIT NOFILE 7 /* max number of open files */ 
efine RLIMIT_MEMLOCK 8 /* max locked-in-memory address space */ 
efine RLIMIT_AS 9 /* address space limit */ 
efine RLIMIT LOCKS 10 /* maximum file locks held */ 
efine RLIM NLIMITS 11 
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还 有 …- 些 成 分 代表 进程 所 占有 和 使 用 的 资源 ， 如 mm. active mm, fs、 files. tty, real timer, times. 
it real value 等 ， 对 这 些 成 分 都 有 专门 的 章节 加 以 介绍 ， 这 里 就 不 重复 了 。 

全 于 统计 信息 ， 则 主要 有 per_cpu_utimef ] 和 per_cpu_stime[ ] 两 个 数组 ， 表 示 该 进程 在 各 个 处 理 器 
上 (在 多 处 理 占 SMP 结构 中 ， :个 进程 可 以 受 调度 在 不 同 的 处 理 侣 上 运行 ) 运行 本 用 户 空 间 和 系统 空 
间 的 累计 时 间 。 而 数据 结构 times 中 则 是 对 这 些 I 时 间 的 汇总 。 此 外 ， 还 有 对 发 尘 页 而 异常 次 数 的 统计 
min flt, maj flt 以 及 换 入 / 换 出 的 次 数 nswap 等 。 当 个 进程 遂 过 do_exit( ) 结 束 其 生命 时 ， 该 进程 的 
有 关 统 计 信息 柴 合 并 人 到 父 进程 ,所 以 对 每 项 统计 信息 都 有 项 相应 的 “总 计 ” 信 让 ， 如 机 对 十 min. flt 
有 cmin_flt， 在 数据 结构 times HAX F tms_utime 有 tms_cutime 等 。 

最 后 ,每 一 个 进程 都 不 是 孤立 地 存在 十 系统 中 ， 册 总 是 根据 人 不同 的 日 的 、 关 系 和 湖 要 与 其 他 的 进 
程 相 联 系 。 从 内 核 的 角度 看 ， 则 是 要 按 不 同 的 且 的 和 性 质 将 每 个 进程 纳入 不 同 的 组 织 中 。 第 个 组 织 
是 由 和 伍 个 进程 的 “家 故 与 社会 关系 ”形成 的 “宗族 ”或 “家 谱 ”。 这 是 一 种 树 型 的 组 织 , 通过 指针 p_opptr、 
p_pptr、p_cptr、p_ysptr 和 p_osptr 构成 。 其 中 p_opptr 和 p_pptr 指向 父 进程 的 task. struct 结构 ， p_cptr 
指 回 最 “年 轻 ” 的 子 进程 ， 而 p_ysptr 和 p_osptr 则 分 别 指向 其 “哥哥 ”和 “弟弟 ”， 从 而 形成 :个 了 进 
程 链 。 这 些 指 针 确 定 了 一 个 进程 在 其 “ 示 族 ”中 的 上 上、 上、 左 、 右 关系 ， 详 见 本 章 中 对 fork( ) 和 exit( ) 

图 4.2 就 中 这 个 进程 “家 谱 ” 的 示意 网 。 









p_pptr 
p epu 
p_ospir 


最 年 轻 的 子 进程 


这 个 组 织 理 然 锁定 了 每 个 进程 的 “宗族 ”关系 ， 洱 瘟 了 系统 中 所 有 的 进程 ， 但 是 ， 此 在 这 个 组 织 
中 根据 进程 号 pid 找到 :个 进程 却 非 奶 事 。 进 程 号 的 分 配 是 相当 随机 的 ， 在 进程 号 中 并 本 包含 什 何 可 
以 用 来 找到 一 个 进程 的 路 径 信 息 ， 而 给 定 ，: 个 进程 号 要 求 找到 该 进程 的 task struct £544 A] X i? n 
用 到 的 一 种 操作 。 于 是 ， 就 有 了 第 个 组 织 ， 那 就 是 一 个 以 杂凑 表 为 基础 的 进程 队列 的 阵列 。 当 给 
一 个 pid 要 找到 该 进程 时 ， 先 对 pid MTA, Wit Rin en Finke HERTS, Hi 
顺 着 该 队 列 就 可 以 较 容 易 地 找到 特定 的 进程 了 。 杂 凑 肯 pidhash 44 kernel/fork.c 中 定义 的 : 


35 struct task struct *pidhash[PlDHASH SZ]; 
Au XN AK PIDHASH. SZ 则 在 include/linux/sched.h PiE Y: 


485 #define PIDHASH SZ (4096 >> 2) 
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杂凑 表 鸭 大 小 为 1024。 由 于 每 个 指针 的 大 小 是 4 个 学 节 ， 所 以 整个 伏 羔 表 《〈 不 包括 各 全 队列 ) 正 
好 占 一 个 页 面 。 每 个 进程 的 task struct 数据 结构 都 通过 其 pidhash_next FU pidhash_pprev 两 个 指针 链 入 
到 杂凑 表 中 的 某 个 队列 中 ， 同 :队列 中 所 有 进程 的 pid 者 具有 相同 的 杂 读 值 。 由 十 杂 凌 表 的 使 用 ， 要 
找到 pid 为 某 个 给 定 值 的 进程 就 很 迅速 了 。 

当 内 核 需 要 对 每 -个 进程 做 点 什么 事情 时 , 还 需要 将 系统 中 所 有 的 进程 都 组 织 成 一 个 线性 的 队列 ， 
这 样 就 可 以 通过 个 简单 的 for 循环 或 while 循 坏 志 历 所 有 进程 的 task. struct 结构 。 所 以 ， 第 一 个 组 织 
就 是 这 么 “个 线性 队列 。 系统 中 第 一 个 建立 的 进程 为 init_task， 这 个 进程 就 是 所 有 进程 的 总 根 ， 所 以 这 
个 线性 队列 就 是 以 init task. 为 起 点 《也 可 把 筷 看 成 是 一 个 队 头 )， 后 继 等 创建 … 个 进程 就 遂 过 其 
task struct 结构 中 的 next. task 和 prev. task 两 个 指针 链 入 这 个 线性 队列 中 。 

每 个 进程 都 必然 同时 身 处 这 三 个 队列 之 中 ， 直 到 进程 消亡 时 才 从 这 三 个 队列 中 摘除 ， 所 以 这 二 个 
队列 部 是 静态 的 。 

在 运行 的 过 程 中 ， 一 个 进程 还 可 以 动态 地 链接 进 “ 可 执行 队列 ”接受 系统 的 调度 。 实 际 上 ， 这 是 
最 重要 的 队列 ， 一 个 进程 上 只 有 在 可 执行 队列 中 才 有 可 能 受到 调度 而 投入 运行 。 与 前 儿 个 队列 不 同 的 是 ， 
一 个 进程 的 task. struct 是 通过 其 list. head 数据 结构 ran_list、 而 个 是 个 别 的 指针 , 链接 进 可 执行 队列 的 。 
以 前 说 过 ， 这 是 用 于 双向 链接 的 通 川 数据 结构 ， 具 有 一 些 与 之 配套 的 函数 或 宏 操 作 ， 处 理 的 效率 比较 
高 ， 也 使 代码 得 以 简化 。 可 执行 队列 的 变化 是 非常 频繁 的 ， 一 个 进程 进入 睡眠 时 就 从 队 生 中 脱 链 ， 被 
唤醒 时 则 又 链 入 到 该 队列 中 , 在 调度 的 过 程 中 也 有 可 能 会 改变 一 个 进程 在 此 队列 中 位 置 。 详 见 本 前 “ 进 
程 凋 度 与 进程 切换 ”以 及 “系统 调用 nanosleep( )” 中 的 有 关 叙 述 。 


42 ”进程 三 部 曲 : 创建 、 执 行 与 消亡 


号 像 世 上 万 物 部 有 产生 、 发 展 与 消亡 的 过 程 -一 样 ， 每 个 进程 也 有 被 创建 、 执 行 某 段 程序 以 及 最 所 
消亡 的 过 程 。 在 Linux 系统 中 ， 第 个 进程 是 系统 固有 的 、 与 后 供 来 的 或 者 说 是 由 内 梳 的 设计 者 安排 
好 了 的 。 内 核 在 引导 并 完成 了 基本 的 初始 化 以 后 ， 就 有 了 系统 的 第 一 进程 实际 上 是 内 核 线程 )。 除 此 
之 外 ， 所 有 其 他 的 进程 和 内 核 线程 部 中 这 个 原始 进 称 或 其 子孙 进程 所 创建 ， 者 是 这 个 原始 进程 的 “后 
A”. 在 Linux 系统 中 ， 个 新 的 进程 ` 定 此 由 一 个 已 经 存在 的 进程 “复制 ”出 米 ， 而 不 是 “创造 ”出 
米 《〈 而 所 谓 “ 创 建 ”实际 就 此 复制 )。 所 以 ，Linux 系统 Unix 也 -一 样 ) 并 不 向 用 户 《 即 进程 ) 提供 类 
似 这 样 的 系统 调 川 : 


int creat proc(int (*fn)(void*), void *arg, unsigned long options); 


可 是 在 很 多 操作 系统 (包括 一 些 Unix 的 变种 ) 中 部 采用 了 “ dA CU HE. TS AE” Wr ch 
进程 ， 并 使 该 进程 从 函数 指针 fn 所 指 的 地 方 开始 执行 。 根 据 不 同 的 情况 和 设计， 参数 名 也 品 以 换 成 一 
个 可 执行 程序 的 文件 名 ,这 里 上 所谓“ 创造 ”包括 为 进程 分 配 所 常 的 资源 、 包 括 属 十 最 低 限 度 的 task_struct 
数据 结构 和 系统 空间 排 栈 ， 并 初始 化 这 些 资 源 : 还 划 设 置 其 系统 空间 堆栈 ， 使 得 这 个 新 进程 看 起 来 各 
好 像 是 一 个 本 来 就 已 经 存在 而 正在 睡 耻 的 进程 。 当 这 个 进程 被 调度 运行 的 时 候 ， 其 “ 返 同 地 三 ”， 也 吕 
是 “恢复 ”运行 时 的 下 一 条 指令 ， 则 就 在 fn 所 指 的 地 方 。 这 个 “ 子 进程 ” 生 下 米 时 两 手 空空， 却 可 以 
完全 独立 ， 并 不 与 其 父 进 程 共享 资源 。 

(HX, Linux CELA Unix? SEHIIS IER A [8]. 
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Linux 将 进程 的 创建 与 日 标 程序 的 执行 分 成 两 步 。 第 一 步 是 从 已 经 存在 的 “ 父 进 程 ” 中 像 细胞 分 裂 
一 样 地 复制 出 一 个 “了 进程 ”这 里 所 谓 像 “ 细 胞 分 裂 样 ?”， 只 是 打 个 比方 ， 实 际 上 ， 复 制 出 来 的 子 
进程 有 自己 的 task_struct 结构 和 系统 空间 堆栈 ， 但 与 父 进 程 共享 其 他 所 有 的 资源 。 例 如 ， 要 是 父 进 各 
打 井 了 五 个 文件 ， 理 么 子 进程 也 有 五 个 打开 的 义 件 ,而且 这 些 文件 的 当前 读 写 指 针 也 停 在 相同 的 地 方 。 
所 以 ， 这 一 步 所 做 的 是 “复制 ”” Linux 为 此 提供 了 两 个 系统 调 川 ， UT AE fork( )， 另 一 个 是 clone( )。 
两 者 的 区 划 在 才 fork ) 是 全 部 复制 ， 父 进程 所 有 的 资源 全 部 遂 过 数据 结构 的 复制 “遗传 ”给 予 进 程 。 
If? clone( ) 则 可 以 将 资源 有 选 拌 地 复制 给 了 进程 ， 而 没有 复制 时 数据 结构 则 通过 指针 的 复制 让 子 进程 共 
享 ,在 极端 的 情况 下 ,一 个 进程 可 以 clone( ) 出 一 个 线程 。 所 以 , 系统 调 几 fork( ) 是 无 参数 的 , 而 clone) 
则 带 有 参数 。 读 者 也 许 已 经 意识 名，fork( HELE clone( ) 刚 接近 本 来 意义 上 的 “克隆 ”。 确 实 是 这 样 ， 
HE T fork()M Unix 的 初期 即 已 存在 ， 夺 时 候 “元 降 ” 这 个 词 还 不 像 现在 这 么 流行 ， 而 既然 业 山 存 
在 ， 就 不 宜 更 改 了 。 否 则 ， 也 许 应 该 十 换 一 名字。 后 来 ， 叉 增设 了 一 个 系统 调用 vfork( )， 也 不 带 参 
数 ， 伍 是 除 task struct. 结构 和 系统 空间 堆栈 以 外 的 资源 全 部 通过 数据 结构 指针 的 复制 “遗传 ”， 所 以 
vfork( ) 出 来 的 是 线程 而 不 是 进程 。 读 少将 会 看 到 ，vfork( ) 主 要 是 出 十 效率 的 考虑 而 没 计 并 提供 的 。 

第 . 步 吓 日 慰 程 序 的 执行 。 一 般 米 说 ， 创 建 … 个 新 的 进程 是 因为 有 不 同 的 目标 程序 要 计 新 的 程序 
EWIT HED : 定 )， 所 以 ， 复 制 完成 以 后 ， 子 进程 通常 要 与 父 进程 分 道 扬 镰 ， 走 自己 的 路 。Linux 
HERAT -个 系统 调用 execve( )， 让 一 个 进程 执行 以 文件 形式 存在 的 一 个 可 执行 程序 的 映 象 。 

读者 也 许 蓝 问 : 这 两 种 方案 到 底 哪 -种 好 ?应 该 说 是 各 有 利弊。 但 是 更 尺 该 赔 ，Linux 从 Unix 继 
承 让 来 的 这 种 分 网 步 走 ， 并 用 在 第 “ 步 中 采取 复制 方式 的 方案 ， 利 远大 于 苋 。 从 效率 的 角度 看 ， 分 贴 
步 和 起 很 有 好 处 。 所 请 复制 ， 只 首 进 程 的 基本 资源 的 复制 ， 如 task struct 数据 结构 、 了 系统 字 间 堆栈 、 页 
面 表 等 等 ， 对 父 进 程 的 代 信 太 全 局 变量 则 并 不 青 要 复制 ， 而 只 是 通过 内 读 访 问 的 形式 实现 上 共 六 ， 仅 在 
而 要 写 有 的 时 候 才 通过 copy on write 的 手段 为 所 涉及 的 页 出 建立 个 新 的 副本 。 所 以 ， 总 的 来 说 复制 的 
代价 是 很 低 的 ， 但 是 通过 复制 而 继承 下 来 的 资源 则 往往 对 了 进程 很 有 镍 。 读 者 以 后 会 看 到 ， 在 计算 机 
网 络 的 实现 由， 以 及 在 client/server 系统 中 的 server AWER, fork coe H ERAR., B 
有 效 、 最 适宜 的 手段 。 笔 者 有 时 候 简 二 怀疑 ， 到 底 是 先 有 fork ) 还 是 先 有 client/server, FAY fork( MA 
乎 中 是 专门 为 此 和 而 设计 的 。 更 重 此 的 好 处 是 ， 这 样 有 利于 父 、 了 进程 问 通 过 pipe 米 建立 起 一 种 简单 有 
效 的 进程 间 通 售 管道， 并且 从 而 产生 了 操作 系统 的 用 广 界 向 即 shell 的 “管道 ”机 制 。 这 一 点 ， 对 十 
Unix 的 发 展 和 推广 应 用 ， 对 十 Unix 程序 设计 环境 的 形成 ， 对 于 Unix 程序 设计 风格 的 形成 ， 部 有 着 非 
前 深远 的 影响 。 品 以 说 ， 这 是 -项 大 才 的 发 明 ， 它 在 很 大 程度 下 改 安 了 操作 系统 的 发 展 方 问 。 

当然 ， 从 男 一 角度 , 也 跨 是 从 程序 设计 界面 的 角度 来 看 , 则 “一揽子 ”的 方案 更 为 简洁 。 不 过 fork) 
加 execve( ) 的 方案 也 并 不 复杂 很 多 。 进 一 步 说 ， 这 也 像 练武 或 演戏 一 样 有 个 固定 的 “招式 ”” D 
了 以 厂 环 不 觉得 复杂 ， 也 很 少 变化 了 。 和 再说， 如 果 有 必 柴 也 可 以 通过 程序 库 提供 CR" dGTCOM 

创建 了 子 进 程 以 后 ， 父 进程 有 二 个 选择 。 第 … 是 继续 走 自 己 的 路 ， 与 了 进程 分 道 扬 镰 。 只 是 如 果 
了 进程 先 于 父 进 程 “去 此 ”， 则 由 内 核 给 父 进 程 发 :个 报 丧 的 信号 。 第 二 是 停 下 来 ， 也 就 是 进入 有 睡 眼 状 
态 ， 守 入 了 进程 完成 其 使 全 而 最 终 太 上 由， 然后 父 进 程 形 继续 运行 。Linux AEE SPS TREE, 
wait4( ) 和 wait3( )。 两 个 系统 调用 基本 相同 ，wait4( ARE MER FAP STH, m wait3( ) 则 等 待 任 
何 一 个 了 进程 去 世 。 第 三 个 选择 是 “让 行 退出 历史 全 台 ”结束 白山 的 生命 。Linux 为 此 设置 了 -个 系 
统 调用 exit( )。 这 里 的 第 二 个 选择 其 实 不 过 是 第 一 个 选择 的 一 种 特例 ， 所 以 从 本 质 上 说 是 岗 种 选择 ; 
种 是 父 进 御 不 受 阴 的 Cnon_blocking ) 方式 ， 也 称 为 “异步 ”的 方式 : 田 ， -种 是 父 进程 受阻 的 Clocking) 
方式 ， REPKA “lab” DX. 
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Linux V EU ta so CEM 
Pilla -个 用 来 演示 进程 的 这 种 “生命 周期 ”的 简单 程序 : 


] &include <stdio. h> 

2 

3 int main( ) 

4 { 

5. int child; 

6 char *args| ] = ("/bin/echo", “Hello”, "World!^, NULL]; 
fi 

8. if (! (child = fork( ))) 

9. | 

10. /* child */ 

1d. printf ("pid %d: %d is my father An, getpid( ), getppid( )); 
12; execve( /bin/echo', args, NULL); 

13. printf ("pid %d: 1 am back, something is wrong! M n', getpid( )); 
14. } 

15; else 

16. { 

17. int myself = getpid( ); 

18. printf (“pid %d: %d is my son\n”, myself, child); 
19. waitA(child, NULL, 0, NULL); 

20. printf ("pid %d: done\n”, myself); 

2]. } 

22. return 0; 

23. ] 


这 里 ， 进 入 main( ) 的 进程 为 父 进程 ， 筷 企 第 8 行 执行 了 系统 调用 fork( ) 创 建 一 个 子 进 程 ， 也 就 是 
Ril rcm. SHERRI KU, MRA “ 样 地 接受 内 核 的 调度 ， 而 有 卫 具 有 相同 的 返 问 
地 址 。 所 以 ， 当 父 进程 和 子 进程 受 调 虞 继续 运行 而 从 内 核 空 间 返回 时 都 返回 到 同 .… 点 上 。 以 前 的 代码 
上 只 有 一 个 进程 执行 ， 而 从 这 :点 开始 却 有 两 个 进程 在 执行 了 。 复 制 出 来 的 子 进程 全 而 地 继承 了 父 进程 
的 所 有 资源 和 特性 , 俱 还 是 有 一 些 细微 却 重 归 的 区 判 。 首 先 ， 子 进程 有 个 不 同 于 父 进程 的 进程 号 pid， 
ii HF EFE] task_struct 中 有 几 个 字段 说 明 谁 是 它 的 父亲 ， 就 像 人 们 的 户口 或 档案 中 也 有 相应 的 栏 日 
一 样 。 其 次 ， 也 许 更 为 重要 的 是 ， 二 者 从 fork() 巡 回 时 所 有 具有 的 返回 值 个 - - 样 。 当 了 进程 从 fork()“ 返 
Al” BY, HRPA O; if SERRA fork( SREY URE AE FEAT AY pid， 这 是 不 可 能 为 0 的。 这 
样 ， 第 8 行 的 证 语句 践 可 以 根据 这 个 特征 把 二 者 区 分 开 来 ， 使 两 个 进程 各 自 知道 “我 是 谁 ”。 然 后， 第 
10 一 12 行 属 于 子 进程 ， 而 16 一 19 行 属 十 父 进 程 ， 虽然 两 个 进程 具有 相同 的 视野 ， 痢 能 “看 人 到” 对方 所 
要 执行 的 代码 ， 但 是 f 语句 将 它们 各 自 的 执行 路 线 分 上 并 了 。 在 这 个 程序 中 ， 我 们 选择 了 让 父 进程 停 下 
来 等 待 ， 所 以 父 进 程 执 行 wait4( ); 而 子 进程 则 通过 execve( ) 执 行 “/bin/echo”。 子 进程 在 执行 echo 以 
后 不 会 叫 到 这 里 的 第 13 行 ， 而 是 “壮士 一 去 不 复 返 ” 这 是 因为 在 /binyecho 中 必定 有 一 个 exit( ) 调 用 ， 
使 了 进程 结束 它 的 生命 。 对 exit ) 的 调用 是 每 一 个 可 执行 程序 映 象 必 有 的 ， 虽 然 在 我 们 这 个 程序 中 并 没 
AVA. T AED return 语句 从 main( YEH, BÆ gcc 在 编译 和 连接 时 会 白 动 加 上 ， 所 以 谁 也 逃 不 过 

由 于 了 进程 与 父 进程 样 接 受 内核 调 虔 ， 而 每 次 系统 调 几 部 有 可 能 引起 调度 ， 所 以 二 者 返回 的 先 
后 次 序 是 不 定 的 ， 也 不 能 根据 返回 的 先后 来 销 定 淮 是 父 进程 准 是 了 进程 。 
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还 要 指出 ，Linux 内 核 中 全 实 有 个 胜似 “一 揽 子 ”创建 内 核 线程 的 函数 〈 常 常 称 为 “ 原 语 7”) 
kernel thread( )， 供 内 核 线程 调 有 用。 但是， 实际 上 这 只 是 对 clone( ) 的 包装 ， 尼 并 不 能 像 调 用 execve( ) 
时 那样 执行 一 个 可 执行 映 象 文件 ， 而 只 是 执行 内 核 中 的 某 一 个 函数 。 我 们 不 妨 看 一 下 它 的 代 公 ， 这 是 
在 arch/i386/kernel/process.c 中 给 出 的 ; 


439 int kernel thread(int (kfn) (void *), void * arg, unsigned long flags) 
440 { 


44} long retval, d0; 

442 

443 . asm volatile ( 

444 “movl %%esp, %%esi\n\t” 

445 “int $0x80\n\t’ /* Linux/i386 system call */ 
446 “cmpl %%esp, %%esi\n\t” /* child or parent? */ 
447 "je l1fXnN ^ /* parent - jump */ 

448 /* Load the argument into cax, and push it. That way, it does 
449 * not matter whether the called function is compiled with 
450 * -mregparm or noti.  */ 

45] "movl %4, %%eax\n\t” 

452 “pushl %%eax\n\t” 

453 "call *%5\n\t” /* call fn */ 

454 ^mov] 9*3, %0\n\t” /* exit */ 

455 "int $0x80\n” 

456 "LAT 

457 :^-&a^" (retval), "-&S" (dO) 

458 ;^0^ ( NR clone), "i^ (. NR exit), 

459 “r” (arg), “r” (fn), 

460 "b" (flags | CLONE VM) 

461 : "memory ); 

462 return reival; 

463 } 


这 里 445 和 455 行 的 指令 “int $0x80” 就 是 系统 调用 。 那 么 系统 调用 号 是 在 哪里 设置 的 呢 ? 请 看 
第 457 行 的 输出 部 ， 这 里 寄存 器 EAX 与 变量 retval 相 结 合作 为 %0 ， 而 在 458 行 开始 的 输入 部 里 又 规 
定 ， %0 应 事先 赋值 为 __NR_clone。 所 以 ， 在 进入 454 行 时 寄存 器 EAX 已 经 被 设置 成 “NR_clone， 
BI clone( ) 的 系统 调用 号 。 从 clone ) 返 回 以 后 ， 这 里 采用 了 -种 不 同 的 方法 区 分 父 进 程 与 子 进程 ， 就 是 
将 返回 时 的 堆栈 指针 与 保存 在 寄 存 器 ESI 中 的 父 进 程 的 堆栈 指针 进行 比较 。 由 二 每 :个 内 核 线程 都 有 
日 己 的 系统 空间 稚 栈 ， 了 进程 的 堆栈 指针 必然 与 父 进程 不 同 。 那 么 ， 为 什么 不 采用 像 fork( ) 返 凹 时 所 
出 的 方法 呢 ? 这 是 因为 clone( ) 所 产生 的 子 线程 可 以 只 有 与 父 线程 相同 的 pid, 如 果 pid 为 0 的 内 核 线 程 
再 clone( ) 一 个 子 线程 ， 则 了 线程 的 pid 就 也 有 可 能 是 0。 所 以 ， 这 里 采用 的 比较 堆栈 指针 的 方法 ， 是 
更 为 可 靠 的 。 冶 然 ， 这 个 方法 只 有 对 内 核 线程 才 适 用 ， 央 为 普通 的 进程 都 在 用 户 空间 ， 根 本 就 不 知道 
其 系统 空 问 堆栈 到 底 在 哪里 。 

前 面 讲 过 ， 内 核 线程 不 能 像 进程 ， 样 执行 一 个 可 执行 映 象 文 件 ， 出 只 能 执行 内 核 中 的 .一 个 晒 数 。 
453 行 的 call 指令 就 是 对 这 个 函数 的 调用 。 汞 数 指针 %5 ALT AME? 从 457 行 的 输出 部 开始 数 -- 下 ， 就 
可 以 知道 %5 与 变量 tn 相 结 合 ， 而 那 正 是 kernel_thread( ) 的 第 个 参数 。 内 核 线程 与 进程 在 执行 日 标 程 
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序 的 方式 上 的 这 种 不 同 ， 又 引发 出 盟 一 个 重要 的 不 同 ， 那 就 是 进程 在 调用 execve( ) bm RIP gl 
是 “ 客 死 他 乡 ” 在 所 执行 的 程序 中 去 世 。 可 是 内 核 线程 上 只 不 过 是 调用 一 个 日 标 函 数 ， 当 然 要 从 那个 昌 
数 返 回 。 所 以 ， 这 里 在 455 行 又 进行 一 次 系统 调用 ， 而 这 次 的 系统 调用 号 在 多 3 中 ， 那 是 NR_exit。 

以 后 , 我 们 将 赎 绕 着 脐 1 和 的 那个 程序 来 介绍 系统 凋 川 fork( ). clone( ). execve( ). waitd( ) 以 及 exit( ) 
的 实现 ， 使 读者 对 进程 的 创建 、 执 行 以 及 消亡 有 更 深入 的 理解 。 


4.3 系统 调用 fork( )、vfork( ) 与 clone( ) 


朵 出 已 经 简要 地 介绍 过 fork( ) 与 clone( ) 省 的 作用 和 区 别 。 这 里 先 来 看 一 下 二 者 在 程序 设计 接口 


pid t fork(void); 
int clone (int (*fn) (void * arg), void * child stack, int flags, void * arg) 


系统 调用 __clone( ) 的 主要 用 途 是 创建 一 个 线程 ， 这 个 线程 可 以 是 内 核 线 程 ， 也 可 以 是 用 户 线 程 。 
创建 用 户 空间 线程 时 ， 呈 以 给 定子 线程 用 户 空间 排 栈 的 位 置 ， 偿 可 以 指定 子 进 程 运 行 的 起 点 。 同 时 ， 
也 可 以 用 .__clone( ) 创 建 进程 ， 有 选择 地 复制 父 进程 的 资源 。 而 fork( )， 则 是 全 面 地 复制 。 述 有 一 个 系 
统 调用 vfork()， 其 作用 也 是 创建 一 个 线程 ， 但 主要 只 是 作为 创建 进程 的 中 间 步 骤 ， 日 的 在 二 提高 创建 
时 的 效率 ， 减 少 系统 开销 ， 其 程序 设计 接口 则 与 fork 相同 。 

这 几 个 系统 调用 的 代码 都 在 arch/i386/kernel/process.c P: 


690 asmlinkage int sys_fork(struct pt regs regs) 


691 | 

692 return do fork(STGCILD, regs. esp, &regs, 0); 

693  ] 

694 

695 asmlinkage int sys clone(struct pt regs regs) 

6906 d 

697 unsigned long clone flags; 

698 unsigned long newsp; 

699 

700 clone flags = regs. ebx; 

701 newsp = regs. ccx; 

702 if (!newsp) 

703 newsp = regs. esp; 

704 return do fork(clone flags, newsp, &regs, 0); 

705 } 

706 

707 /* 

708 * This is trivial, and on the face of it looks like it 
709 * could equally well be done in user mode. 

110 * 

TAI * Not so, for quite unobvious reasons - register pressure. 
712 * [n user mode vfork( ) cannot have a stack frame, and if 
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714 
115 
116 
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* done by calling the "clone( )" system call directly, you 
* do not have enough call-clobbered registers to hold all 
* the information you need. 


*/ 


asmlinkage int sys_vfork(struct pt regs regs) 


{ 
j 


return do fork(CLONE VFORK ; CLONE VM | SIGCHLD, regs.esp, &regs, 


0); 


nU. <= RAAR SEO AB ALI do fork( ) 来 完成 的 ， 不 同 的 只 是 对 do_fork() 的 调用 参数 。 关 
这 些 参数 所 起 的 作用 ， 读 了 do fork ) 的 代码 以 后 就 会 清楚 。 注 意 sys_clone( ) 中 的 regs.ecx， 就 是 调 
To ) 时 的 参数 child_stack， 读 者 如 果 还 不 清楚 ， 可 以 回 到 第 3 前 “系统 调用 ” - 节 


NG TA RH 


E ie. WH _clone( ) 时 可 以 为 子 进程 设置 个 独立 的 用 户 空 间 堆栈 (在 同一 个 用 户 空间 中 )， 如 果 
child stack Jy 09， 就 表示 使 用 父 进 程 的 用 广 空间 堆栈 。 这 三 个 系统 调用 的 土 体 部 分 do 
kernel/fork.c 中 定义 的 。 这 个 函数 比较 大 ， 让 我 们 逐 段 往 卜 看: 


[sys fork( ) > do_fork( )] 


546 
547 
548 
049 
550 
dol 
552 
553 
554 
990 
996 
557 
958 
559 
960 
561 
562 
563 
564 
565 
566 
967 
568 
569 
570 
ofl 
572 
973 
914 


/ 


i 


{ 


* 

* Ok, this is the main fork-routine. It copies the system process 

* information (task[nr]) and sets up the necessary registers. lt also 

* copies the data segment in its entirety. The "stack start/ and 

* "stack top^ arguments are simply passed along to the platform 

* specific copy thread( ) routine. Most platforms ignore stack top. 

* For an example that's using stack top, see 

* arch/ia64/kernel/process. c. 

*/ 

nt do fork(unsigned long clone flags, unsigned long stack start, 
struct pt regs *regs, unsigned long stack size) 


int retval = -ENOMEM; 
struct task struct *p; 
DECLARE MUTEX LOCKED (sem); 


if (clone flags & CLONE PID) { 
/* This is only allowed from the boot up thread */ 
if (current->pid) 
return -EPERM; 


current->vfork sem = &sem; 
p = alloc task struct( ); 
if (lp) 

goto fork out; 


*p = *current; 


| fork( ) 是 在 
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第 560 行 的 宏 操作 DECLARE_MUTEX_LOCKED( ) 定 义 和 和 创建 了 一 个 用 十 进程 间 互 上 斥 和 同步 的 信 
号 量 ， 其 定义 和 实现 见 第 6 章 “ 进 程 间 通信 ”。 

参数 clone flags 由 两 部 分 组 成 ， 其 最 低 的 字 节 为 信号 类 起 ， 用 以 规定 子 进 程 去 其 时 应 该 向 父 进程 
发 出 的 信号 。 我 们 书 经 看 到 ， 对 于 fork( ) 和 vfork( Xf 53 SIGCHLD, ih Xf__ clone ) 则 该 位 段 
可 由 调用 者 决定 。 第 二 部 分 是 一 些 表示 资源 和 特性 的 标志 位 ， 这 些 标志 位 是 在 include/linux/sched.h 中 
定义 的 : 


30 /* 

ol * cloning flags: 

32 */ 

33 define CSIGNAL 0x000000ff /* signal mask to be sent at exit */ 

34 #define CLONE VM 0x00000100 /* set if VM shared between processes */ 

35 #definc CLONE FS 0x00000200 /* set if fs info shared between processes */ 


36 #define CLONE FILES 0x00000400 /* set if open files shared betweenprocesses */ 
37 #define CLONE SIGHAND .0x00000800 /* set if signal handlers and 
blocked signals shared */ 

38 Sdefine CLONE PID 0x00001000 /* set if pid shared */ 

39 . fdefine CLONE PTRACE 0x00002000 /* set if we want to let tracing 
continue on the child too */ 

40 #define CLONE VFORK 0x00004000 /* set if the parent wants the child to 
Wake it up on mm release */ 

41 Hdefine CLONE PARENT . 0x00008000 /* set if we want to have the same parent 
as the cloner */ 

42 #define CLONE THREAD 0x00010000 /* Same thread group? */ 

43 

44 #define CLONE SIGNAL (CLONE SIGHAND | CLONE THREAD) 


对 于 fork( )， 这 一 部 分 为 全 0， 表 上岗 对 有 关 的 资源 都 要 复制 而 不 是 通过 指针 共享 。 出 对 vfork()， 
则 为 CLONE_VFORK 1CLONE_VM， 表 示 父 、 子 进程 共用 (用户) 虚 存 区 间 ， 并 旦 当 子 进程 释放 其 虚 
存 区 问 时 要 唤醒 父 进程 。 E a a er 其 中 标 
志 位 CLONE PID 有 特 妹 的 作用 ， 当 这 个 标志 位 为 1 时 ， 父 、 子 进程 (线程 ) 共用 同一 个 进程 号 ， 也 
就 吓 说 ， 子 进程 虽然 有 其 目 己 的 task_struct 数据 结构 ， B 进程 的 pid。 但 是， 上 只 有 0 Site, E 
就 是 系 统 中 的 局 始 进程 《实际 上 是 线程 )， 才 允许 这 样 来 调用 __clone( )， 所 以 564 行 对 此 加 以 检查 。 

接着 ， 通 过 alloc_task_struct( ) 为 子 进程 分 配 两 个 连续 的 物理 页 而 ， 低 端 用 作 子 进程 的 task struct 
结构 ， 高 端 则 用 作 基 系统 空间 堆栈 。 

注意 574 行 的 赋值 为 整个 数据 结构 的 赋值 。 这 样 ， 父 进程 的 整个 task struct MARIT CEE 
的 数据 结构 中 。 经 编 详 以 后 ， 这 样 的 赋值 是 用 memepy ) 实 现 的 ， 所 以 效 举 很 局 。 

接着 看 下 CREE (fork.c): 


[sys fork( ) > do fork( )] 
576 retval = -EAGAIN; 


577 if (atomic read (&p—>user->processes) >- p-^rlim[RLIMIT NPROC]. rlim cur) 
578 goto bad fork free; 
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579 atomic inc(&p->user-> count); 

580 atomic inc(&p-^user—^processes); 

581 

582 /* 

583 * Counter increases are protected by 
584 * the kernel lock so nr threads can't 
585 * increase under us (but it may decrease). 
586 */ 

587 if (nr threads >= max threads) 

588 goto bad fork cleanup count; 

589 

590 get exec domain(p-»exec domain); 

591 

592 if (p->binfmt && p->binfmt—>module) 
593 MOD TNC USE COUNT (p->binfmt—>module) ; 
594 

595 p-^did exec = 0; 

596 p-^swappable = 0; 

597 p->state = TASK UNINTERRUPTIBLE; 

598 

599 copy flags(clone flags, p); 

600 p->pid = get pid(clone flags); 

601 


在 task. struct 结构 路 有 个 指针 user， 用 来 指向 一 个 user struct 结构 。 个 用 户 常常 有 许多 个 进程 ， 
所 以 有 关 用 户 的 一 些 信息 并 不 专属 于 茶 一 个 进程 。 这 样 ， 属 于 同 用 户 的 进程 就 可 以 通过 指针 user Jk 
享 这 些 信息 。 显 然 ， 每 个 用 户 有 有 日 只 有 一 个 user struct 结构 。 结 构 中 有 个 计数 器 count， 对 属于 该 用 户 
的 进程 数量 计数 。 可 想 向 知 ， 内 核 线程 并 不 属 十 某 个 用 广 ， 所 以 其 task. struct 中 的 user 指针 为 0。 这 个 
数据 结构 的 定义 在 include/linux/sched.h 中 : 


254 /* 

255 * Some day this will be a full-fledged user tracking system.. 

256 */ 

251 struct user struct | 

258 atomic t | count;  /* reference count */ 

259 atomic t processes; /* How many processes does this user have? */ 
260 atomic t files; /* How many open files does this user have? */ 
261 

262 /* llash table maintenance information */ 

263 Struct user struct *next, **pprev; 

264 uid t uid; 

265  ]; 


AS Unix 内 核 的 读者 要 注意 ， 不 要 把 Unix 的 进程 控制 结构 中 的 user 区 与 这 里 的 user struct 结构 
相 混 清 ， 二 者 是 截然 不 同 的 概念 。 在 kernel/user.c 中 还 定义 了 -个 user. struct 结构 指针 的 数组 uidhash: 
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19 &deline UIDHASH BITS 8 
20 #define UIDHASH SZ (1 << ULDHASH, BITS) 


26 static struct user struct *uidhash table[UIDHASH SZ]: 


这 是 个 水 次 Cash) KR. DH PEE Ree, ari SEU S Bb des x PUE 
user struct 结构 。 

各 进程 的 task struct 结构 中 还 有 个 数组 dim. Od EEUU RR EE SA XCETEIBIEBIBI, iu 
rim[RLIMIT_NPROC] 就 规定 了 该 进程 所 属 的 州 户 可 以 拥有 的 进程 数量 。 所 以 ， 如 果 当 前 进程 是 一 个 用 
户 进 种 ， 并 且 该 用 户 拥 有 的 进程 数量 已 经 达 色 了 规定 的 限制 值 ， 就 丹 不 允许 它 fork ) 了 。 那 么 ， 对 于 
不 属 十 任何 用 户 的 内 核 线 程 怎么 办 昵 ?587 行 中 的 此 个 计数 器 就 起 为 进程 的 总 量 而 设 的。 

一 个 进程 除了 属 十 茶 一 个 用 户 之 外 , 还 属 十 某 个 “执行 域 ”。 总 的 来 说 ，Linux Ab Unix 的 一个 变种 ， 

并 且 符合 POSIX 的 规定 。 但 是 ， 有 很 多 版 本 的 操作 系统 同样 是 Unix Eph, RES POSIX HE, FL 
相 之 问 在 实现 细节 上 却 仍然 有 阴风 的 不 同 。 例 如 ，AT&T 的 Sys V Al BSD 4.2 就 有 相当 的 不 同 ， 而 Sun 
的 Solaris 又 有 区 别 ， 这 驶 彤 成 了 不 同 的 执行 成。 如 果 一 个 进程 所 执行 的 程序 是 为 Solaris 开发 的 ， 那 么 
这 个 进程 就 属于 Solaris 执行 域 PER. SOLARIS. "325, TE Linux 上 运行 的 绝 大 多 数 程 序 都 属于 Linux 
执行 域 。 在 task struct 结构 中 有 一 个 指针 exec_domain， 可 以 指向 一 个 exec. domain 数据 结构 。 示 是 看 
include/linux/personality.h FP 2 X AY: 


38 /* Description of an execution domain personality range supported, 
39 * lcall?7 syscall handler, start up / shut down functions ctc. 

40 * N.B. The name and lcall7 handler must be where they are since the 
41 * offset of the handler is hard coded in kernel/sys call.S. 

42 */ 

43 struct exec domain | 

44 const char *name; 

45 lcall? func handler; 

46 unsigned char pers low, pers high; 

47 unsigned long * signal_map; 

48 unsigned long * signal_invmap; 

49 struct. module * module; 

50 struct exec domain *next; 

Bb. 3A 


函数 指针 handler, 用 于 通过 调用 门 实现 系统 调用 , 我们 并 不 关心 。 字 11 pers low 为 某 种 域 的 代 但 ， 
有 PER_LINUX、PER_SVR4、PER_BSD 和 PER_SOLARIS 等 等 。 

我 们 企 这 里 主要 关心 的 结构 成 分 是 module, 这 是 指 回 某 个 module 数据 结构 的 指针 。 读 者 在 有 关 文 
件 系统 和 设备 驱动 的 前 节 中 将 会 看 到 ， 华 Linux ABE xe RARE nI bb PP SEU “AS ZR 
块 ”module， 使 其 在 运行 时 动态 地 安装 和 拆除 。 这 些 “ 动 态 安 装 模 块 ”与 TEAT P ATERI AAT A E 
HURR. 例如， AEF Solaris 执行 域 的 进程 就 很 可 能 要 用 到 专门 为 Solaris WARR, IUE 
还 有 个 这 样 的 进程 在 运行 ， 这 些 为 Solaris 所 甫 的 模块 就 不 能 拆除 。 所 以 ， 人 在 撒 述 人 告 个 已 安装 模块 的 
数 扼 结 构 中 都 有 vua. AMPNHJLT ERES ERSTE. Ub. do fork( ) 中 通过 590 行 的 
get exec domain( ) 递 增 肌体 模块 的 数据 结构 中 的 计数 上 英 《定义 在 include/linux/personality.h 中 )。 
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59 #define get_exec_domain(it) V 
60 if (it && it-»module) | MOD INC USE COUNT(it-»module); 


LPP, te SRE RT DUT APE TAP PUT RA SK, Ul aout 格式 、elf Hat. ES java 
虚拟 机 格式 。 对 这 些 不 同 格式 的 支持 通常 是 通过 动态 安装 的 驱动 模块 来 实现 的 。 所 以 task struct 结构 
中 还 有 一 个 指向 linux binfmt 数据 结构 的 指针 binfmt ij do fork( ) P 593 行 的 
--MOD_INC_USE_COUNT( ) 束 呈 对 有 关 模 块 的 使 用 计数 器 进行 操作 。 

为 什么 要 在 597 行 把 状态 设 成 TASK_UNINTERRUPTIBLE lE? 这 是 因为 在 gct_pid( ) 中 产生 一 个 
新 pid 的 操作 必须 症 独占 的 ， 当 前 进程 可 能 会 因为 ~- 时 进 不 了 临界 区 而 只 好 斩 叶 进入 睡眠 状态 等 街 ， 
所 以 才 事先 把 状态 设 成 UNINTERRUPTIBLE. Pj copy_flags( ) 将 参数 clone. flags 中 的 标志 位 略 加 补 
完 和 变换 ， 然 后 写 入 p->flags。 这 个 函数 的 代 但 也 在 fork.c 中 。 读 者 可 以 月 已 阅读 。 

全 于 600 行 的 get. pid( )， 则 根据 clone_flags 中 标志 位 CLONE_PID 的 值 ， 或 返回 父 进程 (当前 进 
FO 的 pid， 或 返回 一 个 新 的 pid 放 在 了 进程 的 task_struct 小。 函数 get_pid( ) 的 代 公 也 在 fork. c P: 


[sys fork( ) > do fork( ) > get. pid( )] 


82 static int get pid(unsigned long flags) 


83 | 

84 static int next safe - PID MAX; 

85 struct task struct *p; 

86 

87 if (flags & CLONE PID) 

88 return current->pid， 

89 

90 Spin lock(&lastpid lock); 

91 if((++last pid) & Oxffff8000) | 

92 last pid - 300; /* Skip daemons etc. */ 
93 goto inside; 

94 } 

95 it (last pid >= next safe) | 

96 inside: 

97 nexL safe = PID MAX; 

98 read lock(&taskiist lock); 

99 repeat: 

100 for each task(p) | 

101 if(p-^pid == last pid | 

102 p->perp == last pid |; 

103 p->session := last pid) { 

104 if (++last_pid >= next safe) { 
105 if (last pid & Oxffff8000) 
106 last pid - 300; 

107 next safe - PID MAX; 

108 j 

109 goto repeal; 

110 | 

111 if(p-^pid > last pid && next safe > p->pid) 
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112 
113 
114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
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next safe = p->pid; 

if (p->pgrp > last pid && next safe > p->pgrp) 
next safe = p->pgrp; 

if(p->session > last pid && next safe > p->session) 
next safe = p->session, 
} 
read unlock (&tasklist_lock) ; 

} 


spin unlock(&lastpid lock); 


return last pid; 


这 里 的 常数 PID. MAX 定义 为 0x8000。 可 见 ， 进程 号 的 最 大 值 是 0x7fff， 即 32767. wifes 0 一 299 
是 为 系统 进程 (包括 内 核 线程 ) 保留 的 ， 主 要 用 于 各 种 “保护 神 ” 进 程 。 以 上 这 段 代码 的 逻辑 并 不 复 
杂 ， 我 们 就 不 多 加 解释 了 。 

回 到 do_fork( ) 中 再 往 下 看 (fork.c): 


[sys. fork( ) > do, fork( )] 


602 
603 
604 
605 
606 
607 
608 
609 
610 
611 
612 
613 
614 
615 
616 
617 
618 
619 
620 
621 
622 
623 
624 
625 
626 
627 
628 
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p->run_list. next = NULL; 
p->run_list. prev = NULL; 


if ((clone_flags & CLONE_VFORK) || !(clone flags & CLONE_PARENT)) | 
p-?p oppir = current; 
if (!(p->ptrace & PT PTRACED)) 
pp pptr = current; 
} 
p-?p cptr = NULL; 
vOWfork sepe NULLe. 
spin lock init(&p-^»alloc lock); 


p-^sigpending = 0; 
init sigpending(&p pending) ; 


pit real value = pit virt value = p->it prof value = 0; 
pit real incer = pit virt incr = p-^it prof incr = 0; 
init timer(&p-^real timer); 

p->real_timer. data = (unsigned long) p; 


p->leader = 0; /* session leadership doesn't inherit */ 
p tty old pgrp = 0; 

p—times.tms utime = p->times. tms stime = 0; 
p-^times. tms cutime = p->times. tms cstime = 0; 


#ifdef CONFIG SMP 


| 
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629 int i; 


630 p- >has_cpu = 0; 

631 p->processor = current processor: 

632 /* 2? should we just memset this ?9 */ 
633 for(i = 0; i < smp num cpus; i++) 

634 p-^»per cpu utimeli] = p-^per cpu stime[i] = 0: 
635 spin lock init(&p-^sigmask lock): 

636 j 

637 &endif 

638 p-^lock depth = ~1: /* -1 = no lock */ 
639 p-?start time = jiffies: 

640 


我 们 在 前 一 节 中 提 到 过 wait4( ) 和 wait3( )， “个 进程 可 以 停 下 来 等 竺 其 了 进程 完成 使 命 。 为 此 ， 在 
task struct 中 设置 了 “个 队列 头 部 wait_chldexit， 前 面 在 复制 task. struct 结构 时 把 这 也 照抄 了 Wk, ig 
子 进程 此 时 尚未 “出生 ” 当然 痰 不 上 子 进程 的 等 待 队列 ， 所 以 要 在 611 行 中 加 以 初始 化 。 

类 似 地 ， 对 各 种 信息 量 也 要 加 以 初始 化 。 这 里 615 和 616 行 是 对 子 进程 的 待 处理 信 SMALL RA 
入 结构 成 分 的 初始 化 。 对 这 些 与 信号 有 关 的 结构 成 分 我 们 将 在 “进程 间 通 信 ” 的 信号 一 节 中 详细 介绍 。 
接 下 来 是 对 task_struct 结构 中 各 种 计时 变量 的 初始 化 ， 我 们 将 在“ 进程 调度 ”一 节 小 介绍 这 些 E. 
在 这 里 我 们 不 关心 对 多 处 理 器 SMP ARAE, PA 627~637 行 。 

最 后 ，task_struct 结构 中 的 start_time 表示 进程 创建 的 时 间 ， 汕 全 局 变量 jiffles 的 数值 就 是 以 时 钟 
中 断 周 期 为 单位 的 从 系统 初始 化 开始 至 此 时 的 时 间 。 

SUE, X} task. struct 数据 结构 的 复制 与 初始 化 就 是 本 完成 了 。 下 面 就 纶 到 其 他 的 资源 了 : 


[sys fork( ) > do fork( )] 


641 retval =  ENOMEM; 

642 /* copy all the process information */ 
643 if (copy files(clone flags, p)) 

644 goto bad fork cleanup; 

645 if (copy fs(clone flags, p)) 

646 goto bad fork cleanup files; 

647 if (copy sighand(clone flags, p)) 

648 goto bad fork cleanup fs; 

649 if (copy mm(clone flags, p)) 

650 goto bad fork cleanup sighand; 

651 retval = copy thread(0, clone flags, stack start, stack size, p, rogs); 
652 if (retval) 

653 goto bad fork cleanup sighand; 

654 p-^semundo = NULL; 

655 


E ZX copy files( ) 4 4 fr Hh 82 HTH RAR HEM, RAHN aA clone flags 中 
CLONE FILES 标志 位 为 0 时 才 真 正 进行 ,否则 就 只 是 共享 父 进程 的 已 打开 文件 。 当 .个 进程 有 已 打开 
文件 时 ，task_struct 结构 中 的 指针 files 指向 -一 个 files struct 数据 结构 ， 否 则 为 0。 所 有 与 终端 设备 tty 
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相 联 系 的 用 户 进程 的 头 三 个 文件 ， 即 stdin, stdout, Æ stderr， 都 是 预先 打开 的 ， 所 以 指针 MARE 
0。 数 据 结构 files struct 是 在 include/linux/sched.h 中 定义 的 ( 详 见 “文件 系统 ”一 - 章 )，copy. files( ) 的 
代码 则 还 是 在 fork.c H: 


[sys_fork( ) > do_fork( ) > copy. files] 


408 static int copy files (unsigned long clone flags, struct task struct * tsk) 


409 ( 

410 struct files struct *oldf, *newf; 

41] struct file **old fds, **new_fds; 

412 int open files, nfds, size, i, error = 0; 

413 

414 /* 

415 * A background process may not have any files ... 
416 */ 

417 oldf = current->files; 

418 if (toldf) 

419 goto oul; 

420 

421 if (clone flags & CLONE FILES) | 

422 atomic inc (&oldf->count) ; 

423 goto out; 

424 } 

425 

426 tsk->files = NULL; 

427 error = -ENOMEM; 

428 newf ~ kmem cache alloc(files cachep, SLAB_KERNEL) ; 
429 if (!newf) 

430 goto out; 

431 

432 atomic set(&newf-»count, 1); 

433 

434 newf-»file lock = RW LOCK UNLOCKED: 

435 newf-»next fd = 0; 

436 newf->max_fds = NR_OPEN_DEFAULT; 

437 newf-»max fdset - FD SETSIZE; 

438 newf-»close on exec = &newf-»5close on exec init; 
439 newf->open fds = &newf~>open_fds init; 

440 newf->fd = &newf—>fd_array([0]; 

441 

442 /* We don’t yet have the oldf readlock, but even if the old 
443 fdset gets grown now, we']] only copy up to “size” fds */ 
444 size = oldf-^max fdset; 

445 if (size > | FD SETSIZE) | 

446 newf-»max fdset = 0; 

447 write lock(&newf— file lock); 

448 error = expand fdset(newf, size); 


. 288 . 


第 4 党 ”进程 与 进程 调度 


write_unlock (&newf->file_lock) ; 
if (error) 
goto out release; 
} 
read lock(&oldf >file_lock) ; 


open files = count open files(oldf, size); 


/* 
* Check whether we need to allocate a larger fd array. 
* Note: we re not a clone task, so the open count won’ 4 
* change. 
*/ 
nfds - NR OPEN DEFAULT; 
if (open files > nfds) { 
read unlock(&oldf— file lock); 
newf-^5max fds = 0; 
write_lock (&newf->file lock); 
error = expand fd array(newf, open files): 
write unlock(&newf-^file lock); 
if (error) 
goto out release; 
nfds = newf-^max fds; 
read lock(&oldf-^file lock); 


old fds = oldf-^fd; 
new fds = newf-»fd; 


memcpy (newf-^open fds-^fds bits, oldf—>open_fds—>fds bits, open files/8); 
memcpy (newf-^»close on exec->fds bits, oldf-»close on exec—>fds bits, 
open files/8); 


for (i = open files; i != 0; i--) { 
struct file *f = *old fds++， 
if D 
get file(f); 
knew fdsti = f; 
} 
read unlock (@oldf->file lock); 


/* compute the remainder to be cleared */ 
size = (newf->max fds - open files) * sizeof(struct file *); 


/* This is long word aligned thus could use a optimized version */ 
memset (new fds, 0, size); 


if (newf—->max_fdset > open files) | 
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496 int left = (newf-^max fdset- open files) /8; 

497 int start = open files / (8 * sizeof (unsigned long)) ; 
498 

499 memset (&newf-»open fds->fds bits[start], 0, left); 
500 memset (&newf—->close on exec-^fds bits[start], 0, left); 
501 } 

502 

503 tsk->files = newf; 

504 error = 0; 

505 out: 

506 return error; 

507 

508 out release: 

509 free fdset (newf-^»close on exec, newf >max_fdset) ; 

510 free fdset (newf-^open fds, newf->max_fdset) ; 

511 kmem cache free(files cachop, newf) ; 

512 goto out; 

513. ] 


读者 可 以 在 学 习 了 “文件 系统 ”一 章 以 后 再 局 过 头 来 仔细 阅读 这 段 代 码 ， 我 们 在 这 时 先 作 一 些 解 
FE 

4 BS ROY al. Aly A STE PE CET, AL A STE PERE, TE Sa a EAE 
的 task. struct 结构 中 的 files struct 结构 指针 作为 oldf。 

再 看 复制 的 条 件 。 如 果 参 数 clone. flags 中 的 CLONE, FILES 标志 位 为 1， 斌 内 是 通过 atomic_inc( ) 
递增 当前 进程 的 files struct 结构 中 的 共享 计数 ， 表 示 这 个 数据 结构 现在 多 了 一 个 “ 放 户 ”， 就 巡回 了 。 
由 于 在 此 之 前 已 通过 数据 结构 赋值 将 当前 进程 的 整个 task struct. 结构 都 复制 给 了 了 了 进程， 结构 中 的 指 
Et files 自然 也 复制 到 了 子 进 程 的 task_struct 结构 中 ,使 了 进程 通过 这 个 指针 共 膏 当前 进程 的 files_struct 
数据 结构 。 否 则 ， 如 果 CLONE FILES 标志 位 为 0， 孝 就 时 复制 了 。 首 先 通过 kmem_cache_alloc( ) 为 了 
ERU) SU files struct 数据 结构 作为 newf， 然 后 从 oldf 把 内 容 复制 到 newf。TfF files struct 数据 结构 
由 有 三 个 主要 的 “部 件 ?。 其 一 是 个 位 图 ， 名 为 close_on_exec_init; 其 :也 越位 图 ， 和 名 为 open_fds_init; 
其 三 则 是 file 结构 数组 fd_array[ ]。 这 于 个 部 件 都 是 固定 大 小 的 ， 如 果 打 开 的 文件 数量 超过 其 容 虽 ， 藉 
得 通过 expand_fdset( ) 和 expand, fd. array( ME files struct 数据 结构 以 外 另行 分 配 空 间作 为 替换 。 不 管 契 
采用 files struct 数据 结构 内 部 的 这 下 个 部 件 或 是 采用 外 部 的 森 换 空间 ， 指 针 close on exec. open fds 
和 和 也 总 是 分 别 指向 这 三 组 信息 。 所 以 ， 如 何 复制 取决 于 已 打开 文件 的 数量 ， 

显而易见 ， 共 享 比 复制 此 简单 得 多 。 那 么 这 二 者 在 效果 上 到 底 有 什么 区 别 呢 ? sn RJ got nr Uis 
惠 目 的 ， 为 什么 还 要 不 辞 辛 劳 地 复制 呢 ? 区 别 在 于 子 进 程 〈 以 及 父 进程 本 身 ) 是 否 能 “独立 月 主 ”。 当 
复制 完成 之 初 ， 子 进程 有 了 一 份 副 本 ， 它 的 内 容 与 父 进程 的 “正本 ”在 内 容 上 基本 是 相同 的 ， 在 这 一 
点 上 似乎 与 共享 没有 什么 区 别 。 可 是 ， 随 后 区 划 就 来 了 。 人 在 共享 的 情况 下 ， 两 个 进程 是 互相 这 制 的 。 
如 果子 进程 对 某 个 已 打开 文件 调用 了 … 次 lseek( )， 则 父 进程 对 这 个 文件 的 读 写 位 置 也 随 独 改 必 十 ， 因 
为 两 个 进程 共享 着 对 文件 的 同一 个 恋 写 上 下 文 。 而 在 复制 的 情况 下 就 不 一 样 了 ， 由 于 子 进程 有 目 己 的 
副本 ， 就 有 了 对 同一 文件 的 另 … 个 读 写 上 下 文 ， 以 后 就 可 以 各 走 各 的 路 ， 羡 不 干扰 了 。 

除 files struct 数据 结构 外 ， 还 有 个 fs struct 数据 结构 也 是 与 文件 系统 有 关 的 ， 也 要 通过 其 用 或 复 
制 遗 传 给 子 进程 。 类 似 地 ，copy_fs() 也 是 只 有 在 clone_flags 中 CLONE_FS 标志 位 为 0 时 才 加 以 复制 。 
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task struct 结构 中 的 指针 指向 一 个 fs_struct 数据 结构 ， 结 构 中 记录 的 是 进程 的 根 日 录 root、 当 前 工作 日 
A pwd、 一 个 用 于 文件 操作 权限 管理 的 umask， 还 有 …- 个 计数 器 ， 共 定义 在 include/linux/fs. struct.h 中 
( 详 见 “文件 系统 ”一 章 )}。 函 数 copy_fs( ) 连 同 儿 个 有 关 低 层 函 数 的 代码 也 在 fork.c 中 。 我 们 把 这 些 代 
码 留 给 读者 : 


[sys_fork( ) > do_fork( ) > copy. fs( )] 


383 static inline int copy_fs(unsigned long clone flags, 
struct. task_struct * tsk) 

384 { 

385 if (clone flags & CLONE FS) { 

386 atomic_inc (&current—>fs—>count) : 

387 return 0; 

388 } 

389 tsk-^fs = | copy fs struct(current-»fs); 

390 if (Itsk- fs) 

391 return -l; 

392 return 0: 

393 } 


[sys. fork( ) > do. fork( ) > copy. fs( ) > copy_fs_struct( )] 


378 struct fs struct *copy fs struct(struct fs struct *old) 


379 { 
380 return | copy fs struct (old); 
381  ) 


[sys fork( ) > do fork( ) > copy. fs( ) > copy fs struct() > | copy. fs struct( )] 


353 static inline struct fs struct * copy fs struct(struct fs struct *old) 
354 { 


355 struct fs struct *fs = kmem cache alloc(fs cachep, GEP KERNEL); 
356 /* We don’t need to lock fs - think why ;-) */ 
357 if (fs) { 

358 atomic set(&fs-»count, 1); 

359 fs->lock = RW LOCK UNLOCKED; 

360 fs->umask = old->umask: 

361 read lock(&ol1d->1ock) : 

362 fs—>rootmnt = mntget (old->rootmnt) ; 

363 fs—>root = dget (old->root) : 

364 fs-^pwdmnt = mntget (old-^pwdmnt) ; 

365 fs->pwd = dget (old >pwd) ; 

366 if (old->altroot) { 

367 fs-^altrootmni = mntget(old-^altrootmnt): 
368 fs->altroot = dget(oid-^altroot); 

369 ) else { 

370 fs—>altrootmnt = NULL; 
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371 fs->altroot ~ NULL; 
372 } 

373 read unlock (&old-> lock) ; 
374 } 

379 return fs; 

376 } 


代码 中 的 mntget( ) 和 dget( EB Zt ASK BL FA XH AS SS i BIT, b ix ER a BLL E 
了 一 个 用 户 。 注 意 , EX HW ETE STI fs struct UR 45 FJ. 而 并 不 复制 更 深层 的 数据 结构 ,复制 了 fs_struct 
数据 结构 ， 就 在 这 : 层 上 有 了 自主 性 ， 至 二 对 更 深层 的 数据 结构 则 还 是 共享 ， 所 以 此 递增 它们 的 共 至 
计数 。 

接 者 是 关于 对 信号 的 处 理 方 式 。 是 否 复 制 父 进程 对 信和 吕 的 处 理 是 由 标志 位 CLONE_SIGHAND #2 
制 的 。 信 号 基本 上 是 一 种 进程 问 通 人 于 段 ， 信 号 之 于 “个 进程 就 好 像 由 断 忆 才 一 个 处 理 器 。 进 程 可 以 
为 各 种 信号 设置 用 十 该 信 号 的 处 理 程序 , 就 好 像 系 统 可 以 为 各 个 中 断 源 设置 相应 的 中 断 服务 程序 一 样 。 
如 果 个 进程 设置 了 信号 处 理 程序 , 其 task_struct 结构 中 的 指针 sig 就 指向 一 个 signal. struct 数据 结构 。 
这 种 结构 是 在 include/linux/sched.h 中 定义 的 : 








243 struct signal struct { 


244 atomic t count; 

245 struct k sigaction actiion[ NSIGI; 
2406 spinlock, t. siglock; 

247 ); 


其 中 的 数组 action ] 确 定 了 个 进程 对 各 种 信号 《以 信号 的 数值 为 下 标 〉 的 芭 应 和 处 坦 ， 了 进程 可 
以 通过 复制 或 共享 把 它 从 父 进 程 继承 下 来 。 冰 数 copy_sighand( ) 的 代码 如 下 《fork.c): 


[sys_fork( ) > do fork( ) > copy. sighand( )] 


515 static inline int copy sighand(unsigned long clone flags, 
struct task struct * tsk) 
516 { 
517 struct signal struct *sig; 
518 
519 if (clone flags & CLONE STGHAND) | 
520 atomic inc(&current-^sig-?count); 
521 return 0; 
522 } 
523 sig = kmem cache alloc(sigact cachep, GFP. KERNEL); 
524 tsk->sig = sig; 
525 if (!sig) 
526 return -1; 
521 spin lock init(&sig- siglock); 
528 atomic set(&sig-^count, 1); 
529 memcpy (tsk~>sig->action, current >sig >action, 
sizeof (sk >sig >action)); 
530 return 0; 
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像 copy_files( ) 和 copy. fs( ) 一 样 ，copy_sighand( ) 也 是 只 有 人 在 CLONE_SIGHAND 为 tA PCIE 


行 ; 古 则 就 共享 父 进程 的 sig 指针 ， 并 将 父 进程 的 signal struct 中 的 共享 计数 加 1. 


然后 是 用 户 空间 的 继承 。 进 程 的 task_struct 结构 中 有 个 指针 mm， 读 者 已 经 相当 熟悉 了 ， 它 指向 一 


个 代表 者 进程 的 用 户 空间 的 mm struct 数据 结构 。 由 寺内 核 线程 并 不 拥有 用 户 室 问 ， 所 以 齐 内 核 线 程 
的 task struct 结 爸 中 该 指针 为 0。 有 关 mm_struct 及 其 下 属 的 vm. area. struct 等 数据 结 构 已 经 在 第 2 六 
中 介绍 过 ， 这 里 不 赃 重 复 。 函 数 copy mm ) 的 代码 还 是 在 fork.c 中 : 


[sys_fork( ) > do_fork( ) > copy_mm( )] 


279 
280 
281 
282 
283 
284 
285 
286 
287 
288 
289 
290 
291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
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304 
305 
306 
307 
308 
309 
310 
311 
312 
313 
314 


static int copy mm(unsigned long clone flags, struct task struct * tsk) 


struct mm struct * mm, *oldmm; 
int retval; 


tsk-^min fli = tsk-^maj flt = 0; 
tsk-^cmin flt = tsk-^cmaj flt = 0; 
tsk-^nswap = tsk->cnswap = 0; 


tsk->mm = NULL; 
tsk ->active mm = NULL; 


/* 
* Are we cloning a kernel thread? 
* 
* We need to steal a active VM for that.. 
*/ 
oldmn = current-5mm; 
if (loldmm) 
return 0; 


if (clone flags & CLONE VM) | 
atomic inc(&oldmm-»mm users); 
mm = oldmm; 
golo good mm; 


retval - -ENOMFM; 
mm = allocate mm( ); 
if (!mm) 

goto fail nomem; 


/* Copy the current MM stuff., */ 
memcpy (mm, oldmm, sizeof Ckmm)) : 
if (!mm init (mm) 

goto fail nomem; 
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315 

316 down (&oldmm-»mmap sem) ; 

317 retval = dup mmap (mm); 

318 up (&oldmm-^mmap. sem); 

319 

320 /* 

321 * Add it to the mmlist after the parent. 
322 * 

323 * Doing it this way means that we can order 
324 * the list, and fork( ) won't mess up the 
329 * ordering significantly. 

326 */ 

327 spin lock (&mmlist_lock) ; 

328 list add(&mm—>mmlist, &oldmm—->mmlist) ; 
329 spin unlock (&mmlist_lock) ; 

330 

331 if (retval) 

332 goto free pt; 

333 

334 /* 

335 * child gets a private LDT (if there was an LDT in the parent) 
336 */ 

337 copy segments (tsk, mm); 

338 

339 if (init new_context(Lsk, mm) ) 

340 goto free pt; 

341 

342 good_mm: 

343 tsk->mm = mm; 

344 tsk-»activo mm = mm; 

345 return 0; 

346 

347 free pt: 

348 mmput (mm) ; 

349 fail nomem: 

350 return retval; 

351  ] 


显然 ， 对 mm struct 的 复制 也 是 只 在 clone. flags '|' CLONE, VM 标志 为 0 时 才 真 正 进行， 否则 就 
只 是 通过 山 经 复制 的 指针 共享 父 进 程 的 用 户 空间 。 对 mm struct. 的 复制 就 不 只 是 局 限 丁 这 个 数据 结构 
本身 了 ， 也 包括 了 对 殉 深 层 数 据 结构 的 复制 。 其 中 最 重要 的 是 vm area struct ZU £p m vit AE 
这 是 由 dup_mmap( ) 复 制 的 。 函数 dup_mmap( ) 的 代 但 也 在 fork.c 中 。 读者 在 认真 读 过 木 忆 第 2 章 以 后 ， 
阅读 这 段 程序 时 应 该 不 会 感到 困难 ， 同 时 也 是 一 次 很 好 的 练习 。 


{sys_fork( ) > do_fork( ) > copy_mm( ) > dup_mmap( )] 


125 static inline int dup mmap(struct mm struct * mm) 
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126 
127 
128 
129 
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142 
143 
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16] 
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164 
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168 
169 
170 
171 
172 
173 


PATE HERSEN 


struct vm area struct * mpnt, *tmp, **pprev: 
int retval; 


flush cache mm(current-^mm); 

mm-2locked vm = 0; 

mm-»mmap = NULL: 

mm-»mmap avl - NULL; 

mm-»mmap cache = NULL; 

mm-»map count = 0: 

mm->cpu vm mask = Q; 

mm-»swap cnt = Q; 

mm-»swap address = 0; 

pprev = &mm-^mmap; 

for (mpnt = current-^mm-^mmap ; mpnt ; mpnt = mpnt->vm next) | 
struct file *file; 


retval = -ENOMEM; 
if (mpnt- >vm fiags & VM DONTCOPY) 


continue; 
tmp = kmem cache alloc(vm area cachep, SLAB KERNEL); 
if (!tmp) 


goto fail nomem; 
*tmp 三 *mpnt; 
tmp-»vm flags &- ~VM LOCKED; 
tmp->vm_ mm = mm; 
mm-»map count-t*; 
tmp-^vm next = NULL; 
file = tmp-^vm file; 
if (file) ( 
struct inode *inode = file->f dentry-^5d inode; 
get file(file); 
if (tmp-^vm flags & VM DENYWRITE) 
atomic dec(&inode->i_writecount) ; 


/ insert tmp into the share list, just after mpnt */ 
spin lock(&inode-^i mapping-^i shared lock); 
if((Lmp-^vm next share = mpnt-^»vm next share) != NULL) 

mpnt-»vm next share-?vm pprev share = 

&tmp-?vm next share; 

mpnt-»vm next share = tmp; 
tmp-?vm pprev share = &mpnt-^vm next share; 
spin unlock(&inode-^i mapping-^i shared lock); 


/* Copy the pages, but defer checking for errors */ 
retval = copy page range(mm, current-^mm, tmp); 
if (!retval && tmp-^vm ops && tmp-^vm ops->open) 
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Lmp->vm_ops->open (tmp) ; 


/* 

* Link in the new vma even if an error occurred, 
* so that exit mmap( ) can clean up the mess. 

*/ 

*pprev = tmp; 

pprev = &tmp-?vm next; 


if (retval) 
goto fail nomem; 
j 
retval = 0; 
if (mm-»map count >= AVL MIN MAP COUNT) 
build mmap avl(mm); 


fail nomem: 
flush tlb mm(current—>mm) ; 
return retval; 


} 


这 里 通过 140 一 185 行 的 for HA [a] — H3 P 8 [8] P PK a ETT E. FE mmap( ) 映 射 
到 其 个 文件 的 区 间 ，155 一 169 行 是 一 些 特殊 的 附加 处 理 。172 行 的 copy_page_range( ) 是 关键 所 在， 这 
个 函数 逐 层 处 理 页 面 昌 录 硕 和 页 面 表 项 ， 其 代码 在 mm/memory.c 中 : 


[sys_fork( ) > do fork( ) > copy. mm( ) > dup mmap( ) > copy_page_range( )} 


144 
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149 
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152 
153 


/* 

* copy one vm_area from one task to the other. Assumes the page tables 
* already present in the new task to be cleared in the whole range 

* covered by this vma. 


* 

* 08Jan98 Merged into one routine from several inline routines to reduce 
* variable count and make things faster. -jj 

x/ 


int copy page range (struct mm struct *dst, struct mm struct *sre, 
struct vm area struct *vma) 


ped t * sre pgd, * dst pgd; 
unsigned long address = vma-?vm start; 
unsigned long end = vma-5vm end; 
unsigned long cow = {vma->vm flags & (VM SHARED | VM MAYWRITE)) 
== VM MAYWRITE: 


ped offset(src, address)-1l; 
ped offset(dst, address)-1; 


sre ped 
dst pgd 
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pmd t * src pmd, * dst pmd; 


src pgd^*; dst pgd--; 


/* copy pmd range */ 


if (pgd none(*src pgd)) 

goto skip copy pmd range; 
if (pgd bad(*src pgd)) | 

pgd ERROR(*sre pgd); 

pgd clear(src pgd); 


skip copy pmd range: 


address = (address + PGDIR SIZE) & PGDIR MASK; 


if (laddress |! (address >= end)) 
goto out; 


continue; 


} 


if (pgd none(*dst pgd)) { 
if (!pmd alloc(dst pgd, 0)) 
goto nomem; 


src pmd - pmd offset(src pgd, address); 
dst pmd - pmd offset(dst pgd, address); 


do { 


pte t * src pte, * dst pte; 


/* copy pte range */ 


if (pmd none(*src pmd)) 

goto skip copy pte range; 
if (pmd bad(*src pmd)) { 

pmd ERROR(*sre pmd); 

pmd clear(sre pmd); 


skip copy pte range: address = (address + PMD SIZE) & PMD MASK; 
if (address >= end) 
goto out; 


} 


if (pmd_none(*dst pmd)) { 
if (!pte alloc(dst pmd, 0)) 
goto nomem; 


src pte 
dst pte 


pte offset(src pmd, address); 
pte offset(dst pmd, address); 
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do { 


struct page *ptepage; 
/* copy_one pte */ 


if (pte none(pte)) 
goto cont copy pte range noset; 
if (!pte present (ple)) 1 
swap duplicate(pte to swp entry(pte)); 
goto cont copy pte range; 
} 
ptepage = pte page(pte); 
if ((IVALID PAGE(ptepage)) || 
PageReserved (ptepage) ) 
goto cont copy pte range; 


/* If it's a COW mapping, write protect it both in 
the parent and the child */ 
if (cow) { 
ptep set wrprotect(src pte); 
pte = *src pte; 


} 


/* If it's a shared mapping, mark it clean in the child */ 
if (vma->vm flags & VM SHARED) 
pte = pte mkclean(pte) ; 
pte = pte mkold (pte) ; 
get_page (plepage) ; 


cont copy pte range: set pte(dst pte, pte); 
cont copy pte range noset: address += PAGE SIZE; 
if (address >= end) 
goto out; 
src ptett; 
dst ptet*; 
) while ((unsigned long)src pte & PTE TABLE MASK); 


cont copy pmd range: src pmd-*-; 
dst pmd++; 
} while ((unsigned long)src pmd & PMD TABLE MASK) ; 


out: 
return 0; 


nomem: 


return ~ENOMEM; 
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代码 中 163 行 的 for 循环 是 对 页 面 日 录 项 的 循 坏 ，188 行 的 do AEAEE H RART, 211 fT 
的 do 循环 则 是 对 页 酒 表 项 的 循环 。 我 们 所 注意 力 集中 人 在 2117-246 行 对 页 面 表 项 的 do, while (895. 

循环 中 检查 父 进程 个 负面 走 中 的 每 个 肯 项 ， 根 据 表 项 的 内 容 决定 共 体 的 操作 。 而 表 项 的 内 容 ， 
则 无 非 是 下 面 这 么 一 些 可 能 : 


(1) 


(2) 


(3) 


(4) 


(5) 


表 项 的 内 容 为 企 0, 所 以 pte. none( ) 返 问 1。 说 明 该 页 面 的 映射 尚未 建立 , 或 者 说 是 个 “空洞 ”， 
因此 不 需要 做 任何 事 。 

表 项 的 最 低位 ， 即 _ PAGE_PRESENT 标志 位 为 0， 所 以 pte present ( ) 返 网 1。 说 明 映 射 已 建 
立 ， 介 是 该 和 抽 面目 前 不 在 内 存 中 ， 已 经 被 调 出 到 交换 设备 上 。 此 时 表 项 的 内 容 指明 “ 插 上 页 
面 ” 的 地 点 ， 而 现在 沪 盘 上 和 页面 多 了 了 一个 “用 户 ?， 所 以 要 通过 swap duplicate( VAIR 17 8534 
译 计 数 。 然 后 ， 就 转 到 cont_copy_pte_range 将 此 表 项 复制 到 了 进程 的 页 耐 衣 中 。 

映射 山 建 YY， 但 是 物理 页 面 不 是 一 个 有 效 的 内 存 页 面 ， 所 以 YALID_PAGE( ) 返 回 0。 读 者 可 
Ai- 下 ， 我 们 以 闻 讲 过 有 些 物 理 页 面 在 外 设 接口 $ 上， 相应 的 地 址 称 为 “总 线 地 十 ” 

而 并 不 是 内 存 页 而。 这 样 的 页 面 、 以 及 虽 是 内 存 页 面 但 由 内 核 保 曾 的 页 面 ， 是 不 属 十 页面 换 
入 / HILE E, 实际 上 也 不 消耗 动态 分 配 的 内 存 页 而 ,所 以 也 转 到 cont copy. pte range 
将 此 表 项 复制 到 子 进 程 的 奥 币 表 中 。 

需要 从 父 进 程 复制 的 可 写 页 面 。 本 来 ， 此 时 应 该 分 配 : -个 空闲 的 内 人 存 页 向 ， 再 从 父 进程 的 页 
面 把 内 容 复制 过 来 ， 并 为 之 建立 映射 。 显 然 ， 这 个 操作 的 代价 症 不 小 的 。 然 而 ， 对 这 么 辛 辛 
Wir PKA, THAER- ES? HAAS We? 如 果 只 十 读 访 问 ， 则 
只 要 父 进程 从 此 不 再 写 这 个 页 面 ， 号 客人 咱 以 通过 复制 指针 来 共享 这 个 页 面 ， 埋 不 知 此 省 事 
多 少 了 。 所 以 ，Linux 内 核 采 用 了 一 种 称 为 “copy on write” 的 技术 ， 先 通过 复制 页 面 表 项 暂 
时 共享 这 个 页 而 ， 到 子 进程 〈 或 父 进 程 ) 真 的 要 写 这 个 页 面 时 再 米 分 配 页 面 和 复制 。 代 但 由 
HAE E cow ANA 158 行 定 义 的 ， 变 量 名 cow Æ “copy on write” 的 缩写 。 只 要 一 个 
虚 存 区 间 的 性 质 是 可 写 CVM. MAYWRITE 为 1) 而 又 不 是 共享 (VM. SHARED 为 0)， 就 属 
于 copy. on write 区 间 。 实 际 上 上 ， 对 于 绝 大 多 数 的 可 写 虚 存 区 问 ，cow 都 是 1。 在 通过 复制 页 
面 表 项 暂时 共有 时 “个 和 抽 向 帮 项 时 要 做 两 件 重要 的 事情 ， 首 先 要 任 230 和 231 行将 父 进程 的 页 
面 表 项 改 成 与 保护 ， 然 后 在 236 行 把 已 经 改 成 写 保 护 的 衣 项 设 次 到 子 进 程 的 页 面 表 中 。 这 样 
-一 来 ， 相 应 的 负面 在 两 个 进程 中 都 安 成 “只 谈 ” 了 ， 当 不 管 趾 父 进程 或 是 子 进 程 企 网 写 入 该 
页 面 时 ， 才 会 引起 一 次 页 面 异 常 。 而 抽 面 异常 处 埋 程 序 对 此 的 及 应 则 是 另行 分 配 个 物理 页 
面 ， 并 把 内 容 真 正 地 “复制 ”到 新 的 物 埋 负面 中 ， 计 父 、 了 进程 各 自 拥有 和 甘 己 的 物理 页 而 ， 

AJ URBS A De AAV ee AT Ay. A, Linux 内 核 之 所 以 可 以 很 迅速 地 “复制 ” 

-MEFE SC HORI “copy on write" CAN), fr fork 个 进程 时 就 得 要 复制 每 Mayen 
mJ). nÆ, copy_on wie 只 有 在 父 、 子 进程 各 上 自 拥 有 日 己 的 页 面 表 时 才能 实现 。 当 
CLONE VM 标志 位 为 1， 因 出 父 、 了 于 进程 通过 指针 共 训 用户 空 间 时 ，copy_on_write 就 用 不 
上 上 了。 此 时 ， 父 、 子 进程 是 在 真武 的 意义 上 共有 至 用 户 容 间 ， 父 进程 写 入 其 用 户 容 间 的 内 容 同 
时 也 “ 写 入 ” 子 进 程 的 用 户 空 间 。 

父 进 程 的 只 主页 得 。 这 种 页 出 本 来 就 不 党 要 复制 。 因 而 可 以 复制 页 面 表 项 共享 物理 页 面 。 





nl iL, 44.4 copy_page_range( )， 实 际 上 却 连 一 个 页 面 也 没有 真正 地 “复制 ”， 这 就 不 为 什么 Linux 
内 核能 够 很 迅速 地 fork( ) 或 clone( ) 个 进程 的 秘密 。 
图 到 copy. mm( OL RISP. AXE copy_segments( ) 处 理 的 是 进程 可 能 共有 的 局 部 段 描 述 表 LDT。, 我 
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们 在 第 2 po, HAE VM86 模式 中 运行 的 进程 才 会 有 LDT。 虽 然 我 们 并 不 关心 VM86 模式 , 但 
是 有 兴趣 的 读者 也 不 妨 自 已 看 看 它 是 怎样 复制 的 。copy_segments( ) 的 代码 在 arch/i386/kernel/process.c 
中 : 


[sys_fork( ) > do, fork( ) > copy, mm( ) > copy. segments( )] 


499 /* 

500 * we do not have to muck with descriptors here, that is 

501 * done in switch mm( ) as needed. 

502 */ 

503 void copy_segments (struct task struct *p, struct mm struct **new mm) 
504 ( 

505 struct mm struct * old mm; 

506 void *old ldt, *ldt: 

507 

508 ldt = NULL; 

309 old mm = current—>mm; 

510 if (old mm && (old ldt = old_mm->context. segments) != NULL) | 
511 /* 

512 * Completely new LDT, we initialize it from the parent: 
513 */ 

514 ldt = vmalloc(LDT ENTRIES*LDT ENTRY SIZE); 

515 if (ldt) 

516 printk(KERN WARNING “ldt allocation failed\n’) ; 

517 cise 

518 memcpy (ldt, old ldt, LDT_ENTRIES*LDT ENTRY SIZE); 
519 ) 

520 new_mm->context. segments - ldt; 

521 } 


[^18] copy_mm( ARES. X] F 1386 CPU 来 说 , copy. mm( ) 339 行 处 的 init_new_context( ENE 
iH). 

“4 CPU 从 copy. mm( )!l$ do fork( FIT, BE d RARR VER aS et Se T . UH 
妨 问 顾 一 下 ， 当 系统 调用 fork( ) 通 过 sys_fork( EA do_fork( ) 时 ， 其 clone, flags 为 SIGCHLD, thal 
说 ， 所 有 的 标志 位 均 为 0， 所 以 copy_files( ) copy. fs( )、copy_sighand( ) 以 及 copy mm( )4 E ECIEA 
行 了 ， 这 四 项 资源 个 部 复制 了 了。 而 当 vfork( ) 经 过 sys vfork 进入 do fork( Wt, WHH: clonc flags 为 
VFORKICLONE_VMISIGHLD, ， 所 以 只 执行 了 copy_files( ). copy_fs( ) 以 及 copy. sighand( ): 而 
copy mm( )， 则 内 标志 位 CLONE VM 为 1， 只 是 通过 指针 共 京 其 父 进程 的 mm struct, PRA AA 
已 的 副本 。 这 也 就 是 说 ， 经 vfork ) 复 制 的 是 个 线程 ， 只 能 秆 共享 其 父 进程 的 存储 空间 度 上 是 ， 包 括 州 忆 
空间 堆栈 在 内 。 全 于 __clone( )， 则 下 决 上 调用 时 的 参数 。 冯 然 ， 最 终 还 得 取决 丁 父 进程 共有 什么 资源 ， 
此 是 父 进 程 没有 已 打开 交 件 ， 带 么 即使 执行 了 copy_files( )， 也 还 是 空 的 。 

EA do fork UAH). ATA Eel alloc_task_struct( ) Be T PY MES OLA, HAAR m H E 
task struct 结构 ， 已 经 基本 上 复制 好 了 :， 而 用 作 系 统 空间 堆栈 的 高端 ， 才 还 没有 复制 。 现 看 就 由 
copy_thread( ) 来 做 这 件 事 了 。 这 个 昂 数 的 代码 在 arch/i386/kernel/process.c "P: 
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[sys_fork( ) > do. fork( ) > copy. thread( )] 


5283 /* 

524 * Save a segment. 

525 */ 

526 "define savesegment (seg, value) X 

527 asm volatile(“movl %%” #seg ”,%0":’=m” (k(int *)&(value))) 
528 

529 int copy thread(int nr, unsigned long clone flags, unsigned long esp, 
530 unsigned long unused, 

531 struct task struct * p, struct pt regs * regs) 

532 { 

533 struct pt_regs * childregs: 

534 

535 childregs = ((struct pt regs *) (THREAD SIZE + (unsigned long) p)) - 1; 
536 struct cpy(childregs, rogs); 

537 childregs->eax = 0; 

538 childregs—>esp = esp; 

339 

540 p->thread. esp = (unsigned long) childregs; 

541 -p->thread. esp0 = (unsigned long) (childregs*1); 

542 

543 p-^thread.eip - (unsigned long) ret from fork; 

544 

545 savesegment (fs, p ^thread. fs) ; 

546 savesegment (gs, p-^thread. gs) ; 

547 

548 unlazy fpu(current); 

549 struct cpy(&p-^thread. 1387, &current—>thread. 1387) ; 

550 

551 return 0; 

552  ] 


名 为 copy thread( ), Sk s E AI HUE EL BUSES HEE IRE. MB AAS TSE 
IL As iva EA ZR Eh [RIT 8 EIE copy. thread( HRD, TERTRE I ER eiu], APD Be 
它 复 制 给 予 进程 。 但 是 ， 如 果子 进程 的 系统 室 间 堆栈 与 父 进程 的 完全 相同 ， 那 返回 以 后 就 无 从 区 分 谁 
是 了 进程 了 ， 所 以 复制 以 后 偿 要 略 作 调整 。 这 是 ，- 段 很 有 趣 的 程序 ， 我 们 先 来 看 535 行 。 信 第 3 BH, 
读者 已 经 看 到 当 一 个 进程 因 系 统 调 用 或 中 断 而 进入 内 核 时 ， 其 系统 空间 堆栈 的 顶部 保存 着 CPU 进入 内 
核 前 多 各 个 寄存 器 的 内 容 ， 并 形成 一 个 pt regs 数据 结构 。 这 里 535 行 中 的 p 为 了 进程 的 task. struct 指 
针 ， 指 向 两 个 连续 物理 页 面 的 起 始 地 址 ， 而 THREAD_SIZE + (unsigned long)p 则 指向 这 两 个 页 面 的 顶 
Aj. 将 其 变换 成 struct pt_regs*， 再 从 中 减 1， 就 指向 了 了 进程 系统 空间 堆栈 中 的 pt_regs 结构 ， 如 图 4.3 
Hz. 
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(THREAD_SIZE + (unsigned long) P) 


i 


+ 系统 空间 堆栈 


((struct pt regs (THREAD SIZE 
+ (unsigned long) P) -1) 


task. struct 


THREAD SIZE 


En | 


44.3 子 进 程 系统 空间 堆栈 示意 图 


得 到 了 指向 子 进程 系统 空间 堆栈 中 pt_regs 结构 的 指针 childregs 以 后 , 就 先 将 当前 进程 系统 空间 挫 
栈 中 的 pt_regs 结构 复制 过 去 ， 再 米 作 少 量 的 调整 。 什 么 样 的 调整 呢 ?” 首 先 ， 将 该 结构 中 的 eax EO. 
当 子 进程 受 调 度 而 “恢复 ”运行 ， 从 系统 调用 “返回 ”时 ， 这 就 是 返回 值 。 如 前 所 述 ， 子 进程 的 返回 
值 为 0。 其次， 还 要 将 结构 中 的 esp 置 成 这 里 的 参数 esp， 它 决定 了 进程 在 用 户 空 间 的 堆栈 位 置 。 在 
__clone() 调 用 中 ， 这 个 参数 是 由 调用 者 给 定 的 。 而 在 fork( ) 和 vfork( ) 中 ， 则 来 自 调用 do_fork( ) 前 多 的 
regs.esp， 所 以 实际 上 并 没有 改变 ， 还 是 指向 父 进程 原来 在 用 户 空 间 的 堆栈 。 

在 进程 的 task_struct 结构 中 有 个 重要 的 成 分 thread， 它 本 身 是 一 个 数据 结构 thread_struct， 里 面 记 
录 着 进程 在 切换 时 的 (系统 空间 ) 堆 栈 指 针 ， 取 指令 地 址 (也 就 是 “返回 地 址 ”) 等 关键 性 的 信息 。 在 复 
制 task_struct 数据 结构 的 时 候 ， 这 些 信息 也 原封 不 动 地 复制 了 过 来 。 可 是 ， 子 进程 有 自己 的 系统 空间 
MERE, 所 以 也 要 相应 加 以 调整 。 具 体 地 说 ，540 行将 p->thread.esp 设置 成 子 进程 系统 空间 堆栈 中 pt regs 
结构 的 起 始 地 址 ， 就 好 像 这 个 子 进程 以 前 曾经 运行 过 ， 而 在 进入 内 核 以 后 正 要 返回 用 户 空间 时 被 切换 
了 一 样 。 而 p->thread.esp0 则 应 该 指向 子 进 程 的 系统 空间 堆栈 的 顶端 。 当 … 个 进程 被 调度 运行 时 ， 内 核 
会 将 这 个 变量 的 值 写 入 TSS 的 esp0 字段 ， 表 示 当 这 个 进程 进入 0 级 运行 时 其 堆栈 的 位 置 。 此 外 ， 
p->thread.eip 的 值 表示 当 进 程 下 - :次 被 切换 进入 这 行 时 的 切入 点 ， 类 似 于 函数 调用 或 中 断 的 返回 地 址 。 
将 此 地 址 设置 成 ret_from_fork， 使 创建 的 子 进 程 在 首次 被 调度 运行 时 就 从 那儿 开始 ， 这 一 点 以 后 在 阅 
读 有 关 进 程 切换 的 代码 时 还 要 讲 到 。545 行 和 546 行 的 savesegment 是 个 宏 操 作 ， 其 定义 就 在 526 fT. 
所 以 ，545 行 在 goo 预 处 理 以 后 就 会 变 成 


asm volatile ("movl %%fs, %0” :” =m” (* (int *) & p->thread. fs)) 


也 就 是 把 当前 的 段 寄存 器 fs 的 值 保存 在 p-»thread.fs 中 .546 行 与 此 类 似 。548 行 和 549 行 是 为 1387 
浮 点 处 理 器 而 设 的 ， 那 就 不 是 我 们 所 关心 的 了 。 
回 到 do fork(), REF @: 


[sys_fork( ) > do fork( )] 


656 /* Our parent execution domain becomes current domain 
657 These must match for thread signalling to apply */ 
658 

659 p->parent exec id - p->self_execc_id; 

660 

661 /* ok, now we should be set up.. */ 
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p->swappable = 1; 
p->exit_signal = clone flags & CSIGNAL; 
p Spdeath signal = 0; 


/* 

* “share” dynamic priority between parent and child, thus the 

* tolal amount of dynamic priorities in the system doesnt change, 

* more scheduling fairness. This is only important in the first 

* Limeslice, on the long run the scheduling behaviour is unchanged. 
*/ 
p >counter = (current—>counter + 1) >> 1; 

current-2counter >>= |; 

if (!current—>counter) 

current—>need resched = 1; 


/* 


* Ok, add it to the run-queues and make it 


* visible to the rest of the system. 
* Let it rip! 
*/ 


retval = p->pid: 
p~>tgid = retval; 
INIT LIST HEAD(&p-^thread group); 
write lock irq(&tasklist. lock); 
if (clone flags & CLONE THREAD) | 
p tgid = current->tgid; 
list add(&p-^thread group, &current—^thread group); 
} 
SET LINKS (p) ; 
hash pid(p); 
nr threads-**; 
write unlock irq(&tasklist lock); 


if (p>ptrace & PT PTRACED) 
send sig(SIGSTOP, p, 1); 


wake up process(p): /* do this last */ 
total forks; 


fork out: 
if ((clone flags & CLONE VFORK) && (retval > 0)) 
down (&sem) ; 
return retval; 


代码 中 的 parent. exec id 表示 父 进程 的 执行 域 ，self_exec_id 为 本 进程 的 执行 域 ，swappable Arc 
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进程 的 存储 和 页面 可 以 被 换 出 ，exit_signal 为 本 进程 执行 exit( ) 时 应 向 父 进 程 发 出 的 信号 ，pdeath_signal 
为 要 求 父 进程 在 执行 exit( ) 时 问 本 进程 发 出 的 信号 。 此 外 , task struct 结构 中 counter 字段 的 值 就 是 进程 
的 运行 时 间 配 额 ， 这 里 将 父 进程 的 时 间 配 额 分 成 两 洲 ， 让 父 、 子 进程 各 有 原 值 的 : 半 。 如 哩 创建 的 是 
线程 ， 则 还 要 通过 task struct 结构 中 的 队列 头 thread. group 与 父 进程 链接 起 来 ， 形 成 … 个 “线程 组 ” 
接 上 有 有， 践 要 让 子 进程 进入 它 的 关系 网 了 。 先 通过 SET_LINKS(p) 将 子 进程 的 task_struct 结构 链 入 内 核 的 
进程 队列 , 然后 又 通过 hash_pid( ) 将 其 链 入 按 其 pid 计算 得 的 杂 凌 队列 。 有 关 这 些 队 列 的 详情 可 参看 “ 进 
程 ” 以 及 “进程 的 调度 与 切换 ” 岗 节 中 的 有 关 叙 述 。 最 后 ， 通 过 wake up process( {HERE “TARR”, 
也 就 是 将 其 挂 入 可 执行 进程 队列 等 待 调度 。 有 关 详 情 可 参看 “过 程 的 睡 申 与 唤醒 ”一 节 。 
至 此 ， 新 进程 的 创建 已 经 完成 了 ， 并 且 已 经 捍 入 了 可 运行 进程 的 队列 接受 调度 。 子 进程 与 父 进 程 
在 几 户 空间 中 共有 柑 同 的 返 同 地 址 ， 然 后 才 会 因 用 广 空 间 中 程序 的 安排 而 分 开 。 同 时 ， 由 十 当 父 进程 
(当前 进程 ) 从 系统 调用 返回 的 前 多 可 能 会 接受 调度 ， 所 以 ， 到 抵 谁 会 先 返回 到 用 卢 空间 是 不 确定 的 。 
^d. 般 而 言 ， 由 于 父 、 子 进程 适用 相同 的 调度 政策 ， 而 父 进程 在 可 执行 进程 队列 中 排 在 子 进程 前 
面 ， 所 以 父 进程 先 运行 的 可 能 较 大 。 

还 有 一 种 特殊 情况 要 考虑 。 当 调用 do_fork( ) 的 参数 中 CLONE_VFORK 标志 位 为 1 时 ， 一 定 要 保 
证 让 子 进程 先 运 行 ， 一 直到 了 进程 通过 系统 调用 execve( ) 执 行 一 个 新 的 可 执行 程序 或 者 通过 系统 调用 
exit( ) 退 出 系统 时 , 才 可 以 恢复 父 进程 的 运行 ,为 什么 呢 ? 这 要 从 用 户 空间 的 复制 或 共享 这 个 问题 说 起 。 
前 面 读者 已 经 看 到 ， 在 创建 子 进程 时 ， 对 于 父 进 程 的 用 户 室 间 可 以 通过 复制 父 进程 的 mm_struct 及 其 
下 属 的 各 个 vm_area_struct 数据 结构 ， 和 冉 加 |: 父 进 程 的 页 面 日 录 和 页 面 表 玉 继承 ; 也 可 以 简单 地 复制 父 
进程 的 task struct 结构 中 指向 其 mm, struct 结构 的 指针 来 共享 ， 其 体 取决 十 CLONE_VM 标志 位 的 值 。 
当 CLONE, VM 标志 位 为 1,， 因 出 父 、 子 进程 通过 指针 共享 用 户 空间 时 ， 父 、 子 进程 是 在 真正 的 意义 上 
其 学 用 户 空间 ， 父 进程 写 入 其 用 户 空 闻 的 内 容 同 时 也 “所 入 ” 子 进程 的 用 户 空间 ， 反 之 外 然 。 如 果 说 ， 
在 这 种 情况 下 父 、 子 进程 各 日 对 其 数据 区 的 写 入 可 能 会 引起 问题 的 话 ， 那 么 对 堆栈 区 的 写 入 可 就 是 臻 
命 的 了 。 而 每 次 对 了 程序 的 调用 都 是 对 堆栈 区 的 写 入 ! 由 此 可 见 ， 在 这 样 的 情况 下 绝 不 能 让 两 个 进程 
都 问 到 用 户 空间 并 发 地 运行 ， 否 则 ， 必 然 是 两 个 进程 最 终 都 乱 来 -… 气 或 者 因 非 法 越界 访问 而 涉 亡 。 解 
决 的 办 法 只 能 是 “扣留 ”其 中 一 个 进程 ， 而 只 让 一 个 进程 回 到 用 广 空 间 ， 直 到 两 个 进程 不 青 共享 它们 
的 用 户 空间 或 其 中 个 进程 (必然 吓 回 到 用 户 空间 运行 的 那个 进程 消亡 为 止 。 

所 以 ,do_fork( ) 中 的 703 行 和 704 行 在 CLONE. VFORK 标志 为 1 GFK fork 了 进程 成 功 的 情况 下 ， 
通过 让 当前 进程 ( 父 进 程 ) 在 “个 信号 虽 上 执行 一 次 down( ) 操 作 ， 以 达 A 到 扣留 父 进 程 的 日 的 。 我 们 米 
看 有 具体 是 怎样 实现 的 。 

AG, (aS sem ETE PRT SAIN 560 行 定义 的 一 个 局 部 量 (名 日 DECLARE， 实 际 | 为 之 分 
配 了 空间 ); 


[sys_fork( ) > do_fork( )] 
560 DECLARE_MUTEX_LOCKED (sem) ; 
这 儿 DECLARE_MUTEX_LOKED 是 在 include/asm-i386/semaphore.h 中 定义 的 : 


70 #define DECLARE MUTEX (name) DECLARE SEMAPHORE GENERIC (name, 1) 
T1 #define DECLARE MUTEX LOCKED (name) _ DECLARE, SEMAPHORE. GENERIC (name, 0) 
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将 DECLARE MUTEX LOKED 与 DECLARE_MUTEX 作 一 比较 ， 可 以 看 出 正常 情况 下 信号 量 中 
资源 的 数量 为 1， 而 现在 这 个 信 续 量 中 资源 的 数量 为 0。 当 资源 数量 为 1 时 ， 第 个 执行 down( ) 操 作 
的 进程 进入 临界 多 ， 而 使 资源 数量 变 成 了 0， 以 后 执行 down ) 操 作 的 进程 便 会 因为 资源 为 0 而 被 拒 之 
门 外 进 入 睡眠 ， 直 到 第 一 个 进程 归还 资源 离开 临界 区 时 才 被 唤醒 。 市 其 在 这 个 信和 号 量 的 资源 从 -开始 
就 是 0， 所 以 第 一 个 对 此 执行 down( ) 操 作 的 进程 就 会 进入 睡 呢 ， 一 直 要 到 某 个 进程 往 这 个 信号 量 中 投 
入 资源 ， 也 就 是 执行 一 次 up() 操 作 时 才 会 被 唤醒 。 

那么 ， 谁 米 投 入 资源 呢 ? 在 “系统 调用 execve( )”-- 节 中 读者 将 看 到 ， 子 进程 在 通过 execve( ) 执 
IT -个 新 的 可 执行 程序 时 会 做 这 件 事 。 此 外 ， 了 进程 在 道 过 exit( ) 退 出 系统 时 也 会 做 这 件 事 。 这 里 还 要 
指出 ， 这 个 信号 量 是 do_fork( ) 的 一 个 局 部 变量 ， 所 以 在 父 进程 的 系统 空间 堆栈 中 ， 庙 子 进程 在 其 
task struct 结构 中 有 指向 这 个 信号 量 的 指针 〈( 副 vfork_sem, JL do fork( ) 的 第 554 行 和 560 fr). HESR 
父 进 程 一 直 虎 睡眠 到 子 进程 使 用 这 个 信号 量 以 后 ， 信 和 号 量 所 在 的 空间 就 不 会 受到 打扰 。 还 应 指出 ， 
CLONE VM 要 与 CLONE_VFORK 结合 使 用 ， 否 则 就 会 发 牛 前 述 的 问题 ， 除 非 在 用 户 程序 中 采取 了 特 
殊 的 预防 措施 。 

不 管 怎 样 ， 了 进程 的 创建 终 丁 完成 了 ， 让 我 们 祝福 这 新 的 生命 ! 可 是 ， 如 果子 进程 只 具有 与 父 进 
程 相 同 的 可 执行 程序 和 数据 ， 只 是 父 进程 的 “影子 ” IDA AR ME? 子 进程 必须 二 和 白 己 的 路 ， 这 
就 是 下 一 站 “系统 调用 execve( )” 所 要 讲述 的 内 容 了 。 


44 系统 调用 execve( ) 


读者 在 前 一 节 中 已 经 看 到 ， 进 程 通常 是 按 其 父 进 程 的 原样 复制 出 来 的 ， 在 多 数 情况 下 ,如 果 复 制 出 
来 的 子 进程 不 能 与 父 进程 分 道 扬 镰 ,“ 走 白 己 的 路 ” 那 就 没有 多 大 意义 。 所 以 ， 执 行 一 个 新 的 可 执行 
程序 是 进程 生命 久 程 中 关键 性 的 步 。 Linux 为 此 提供 了 一 个 系统 调用 execve(), 而 在 C 语言 的 程序 库 
中 则 又 在 此 基础 上 向 应 用 程序 提供 一 整套 的 库 函 数 , 包括 execl( )、execlp( )、execle( )、execle( ). execv( ) 
和 execvp( )。 此外, LA FE PAR system( ), 也 与 exeeve( AK, 个 过 system( ) 是 fork( )、 execve( )、wait4( ) 
的 弓 合 。 我 们 已 经 在 本 章 第 2 节 介 绍 过 应 用 程序 怎样 调用 execve( )， 现 在 我 们 就 来 介绍 execve( ) 的 实 
现 。 

系统 调用 execve( HA Nit sys_execve( )， 代 码 见 arch/i386/kernel/process.c: 


722 /* 

723 * sys execve( ) executes a new program. 

724 */ 

725 asmlinkage int sys execve (struct pt regs regs) 
726 d 

(27 int error; 

128 char * filenamo; 

129 

130 filename = getname((char *) regs. ebx); 

731 error = PTR ERR(filename); 

732 if (1S_ERR (filename) ) 

733 goto out; 

734 error = do execve(filename, (char **) regs. ecx, 


(char **) regs. edx, &regs); 
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735 if (error == 0) 

736 current->ptrace &- “PT DTRACE; 
737 putname (filename) ; 

738 out: 

739 return error; 

740} 


以 前 讲 过 , 系统 调用 进入 内 核 时 , regs.ebx FRAR AAA Bd Fe B CIE LK 585 PS EY 
在 本 章 第 2 节 所 举 的 例子 中 ， 这 个 参数 为 指向 字符 串 “/bin/echo” 的 指针 。 现 在 ， 指 针 存 放 在 regs.ebx 
寸 ， 但 字符 串 本 身 还 在 用 户 空间 中 ， 所 以 730 行 的 getname( ) 要 把 这 个 字符 串 从 用 户 空间 拷 册 到 系统 空 
间 ， 在 系统 空间 中 建立 起 … 个 副本 。 让 我 们 看 看 具体 是 怎么 做 的 。 孙 数 getname( ) 的 代 但 在 fs/namei.c 
中 ; 


[sys execve( ) > getname( )] 


129 char * getname(const char * filename) 
130 { 

131 char *tmp, *result; 

132 

133 result - ERR PTR(-ENOMEM) ; 

134 tmp = | getname( ); 

135 if (tmp { 

136 int retval - do getname(filename, tmp); 
137 

138 result = tmp; 

139 if (retval < 0) { 

140 putname (tmp) ; 

141 result = ERR_PTR (retval); 
142 } 

143 } 

144 return result; 

145 } 


先 通 过 _getname( ) 分 配 一 个 物理 页 而 作为 缓冲 区 ， 然 后 调用 do_getname( J/ARI P THe EFT 
串 。 那 么 ， 为 什么 要 专门 为 此 分 配 一 个 物理 让 睾 作为 缓冲 区 呢 ? 首先 ， 这 个 字符 串 确 有 可 能 相当 长， 
因为 这 是 “个 绝 对 路 径 和 名。 其次， 我 们 以 前 讲 过 ， 进 程 系统 空间 排 栈 的 大 小 是 大 约 7TKB. Alei, 
不 宜 在 getname( ) 中 定义 一 个 局 部 的 4KB 的 字符 数组 (注意 ， 局 部 变量 所 占据 的 空间 是 看 堆栈 中 分 配 
(4). PRAM do_getname( ) 的 代码 也 企 文 件 fs/namei.c H': 


[sys_execve( ) > getname( ) > do_getnamet )] 


102 /* In order to reduce some races, while at the same time doing additional 
103 * checking and hopefully speeding things up, we copy filenames to the 
104 * kernel data space before using them.. 

105 * 


106 * POSIX. 1 2.4: an empty pathname is invalid (ENOENT). 
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107 */ 

108 static inline int do getname (const char *filename, char *page) 
109 { 

110 int retval; 

131 unsigned long len = PATH MAX + i; 

112 

113 if ((unsigned long) filename >= TASK SIZE) { 

114 if (!segment eq(get fs( ), KERNEL. DS)) 

115 return -EFAULT; 

116 } else if (TASK SIZE - (unsigned long) filename < PAGE SIZE) 
[17 len = TASK SIZE - (unsigned long) filename; 

118 

119 retval = strncpy from user((char *)page, filename, len); 
120 if (retval > 0) ( 

121 if (retval < len) 

122 return 0; 

123 return —ENAMETOOLONG; 

124 } else if (!retval) 

125 retval = -ENOENT; 

126 return retval; 

127 i) 


如 果 指 针 filename 的 值 大 于 等 于 TASK_SIZE， 就 表示 filename 实际 上 -在 系统 空间 中 。 读 者 应 该 还 
记得 TASK SIZE 的 值 是 3GB 。 具 体 的 拷贝 是 通过 strnepy. from user( ) 进 行 的 ， 代 码 见 
arch/i386/lib/usercopy.c: 


[sys_execve( ) > getname( ) > do_getname( ) > strncpy. from user( )] 


100 long 

101 strnepy from user (char *dst, const char *sre, long count) 
102 | 

103 long res - -EFAULT; 

104 if (access ok(VERIFY READ, src, 1)) 

105 .. do strncpy from user(dst, src, count, res); 

106 return res; 

107 ] 


这 个 函数 的 主体 strncpy_from_user( ) 是 - -个 安 操作 ， 也 在 同 ，- 源 文件 usercopyc 中 ， 与 第 3 章 小 介 
绍 过 的 _generic_copy_from_user( ) 很 相似 ， 读 者 可 以 白 行 对 照 阅读 。 

在 系统 空间 中 建立 起 _ 份 可 执行 文件 的 路 径 名 副本 以 后 ，sys_execve( ) 就 调用 do execve( )， 以 完 
成 其 主体 部 分 的 工作 。 当然, 完成 以 后 还 要 通过 putname( ) 将 所 分 配 的 物理 页 面 释放 。 函数 do_execve( ) 
的 代码 在 fs/exec.c 中 ， 我 们 逐 段 地 往 下 看 : 


[sys_execve( ) > do_execvet )] 


835 /* 
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836 * sys execve( ) executes a new program. 
837 */ 

838 int do execve(char * filename, char ** argv, char ** cnvp, struct pl regs * regs) 
839 i 

840 struct linux binprm bprm; 

841 struct file *file; 

842 int retval; 

843 int 1; 

844 

845 file = open_exec (filename) ; 

846 

847 retval = PTR ERR (file) ; 

848 if (IS ERR(file)) 

849 return retval; 

850 


BAR, "pu GER RT AT RE CIT ESI HITA, open exec(C 28 AE ALM HIN, HAREE 
exec.c 中 ， 读 者 可 结合 “文件 系统 ”一 章 中 有 关 打 开 文 件 操作 的 内 容 ， 特 别 症 path. walk( ) 的 代 人 色目 行 
[8] iE 

(OE BPA, Fob LER Ace RAST PS. AAT Ae RAE 
义 了 一 个 数据 结构 linux_binprm， 以 便 将 运行 PS WHAT CARA A BAA, REE 
include/linux/binfmts.h 定义 的 : 


19 /* 

20 x This structure is used to hold the arguments that are used when 
loading binaries. 

21 */ 

22 struct linux binprm! 

23 char buf [BINPRM BUF SIZE]; 

24 struct page *page[MAX ARG PAGES]; 

25 unsigned long p; /* current top of mem */ 

26 int sh bang; 

27 struct file * file; 

28 int e uid, e gid: 

29 kernel cap t cap inheritable, cap permitted, cap effective; 

30 int argc, envc; 

3l char * filename; /* Name of binary */ 

32 unsigned long loader, exec; 

ao da 


其 中 各 个 成 分 的 作用 读 了 下 而 的 代码 就 会 清楚 。 我 们 继续 在 do_execve( ) 中 往 下 看 : 
[sys_execve( ) > do_execve( )] 


851 bprm.p = PAGE SIZE*MAX ARG_PAGES-sizeof (void *) ; 
852 memset (bprm. page, 0, MAX ARG PAGES*sizeof (bprm. pagc[0])) ; 
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853 

854 bprm. file = file; 

855 bprm. filename = filename; 

856 bprm. sh bang = 0; 

857 bprm. loader = 0; 

858 bprm. exec = 0; 

859 if ((bprm. argc = count (argv, bprm.p / sizeof (void *))) < 0) { 
860 allow write access(file); 

861 fput (file); 

862 return bprm. argc; 

863 } 

864 

865 if ((bprm. enve = count(envp, bprm.p / sizeof (void *))) < 0) | 
866 allow write access (file); 

867 fput (file); 

868 return bprm. envc; 

869 } 

870 

871 retval = prepare binprm(&bprm) ; 

872 if (retval < 0) 

873 goto out; 

874 

875 retval = copy strings kernel(l, &bprm. filename, &bprm); 
876 if (retval < 0) 

877 goto out; 

878 

879 bprm. exec - bprm. p; 

880 retval = copy strings(bprm.envc, envp, &bprm) ; 
881 if (retval < 0) 

882 goto out; 

883 

884 retval = copy strings(bprm.argc, argv, &bprm); 
885 if (retval < 0) 

886 goto out; 

887 


代码 中 的 linux binprm 数据 结构 bprm ECM E. AX open, exec( )iR|!|-—~+ file 结构 指针 ， 代 
表 着 读 入 可 执行 义 件 的 上 | 下文， 所 以 将 其 保存 在 数据 结构 bprm 中 。 变 量 bprm.sh_bang 的 值 说 明 可 执 
行文 件 的 性 质 ， 当 可 执行 义 件 起 个 Shell 过 程 (Shell Script, H Shell 诺言 编写 的 命令 文件 ， 由 shell 
解释 执行 ) 时 置 为 1。 而 现在 还 不 知道 ， 所 以 乔 旦 将 其 置 为 0， 也 就 是 先 假定 为 进 制 文件 。 数 据 结 构 
中 的 其 他 两 个 变量 也 暂时 设置 成 0。 接 着 就 处 理 可 执行 文件 的 参数 和 环境 变量 。 

与 可 执行 文件 路 径 名 的 处 理 办 法 样 ,每 个 参数 的 最 大 长 度 也 定 为 一 个 物 埋 负面 所 以 bprm 中 有 
一 个 页 面 指针 数组 ， 数 组 的 大 小 为 允许 的 最 大 参数 个 数 MAX_AGE_PAGES， 目 前 这 个 常数 定义 为 32。 
WIRE Lhasa memset( ) 将 这 个 指针 数组 初始 化 成 全 0。 现在 将 bprm.p 设置 成 这 些 页 面 的 总 和 减 太 - -个 指 
外 的 大 小 ， 因 为 第 0 个 参数 也 就 是 arev[0] 是 可 执行 程序 本 身 的 路 径 名 。 卫 数 count ) 是 在 exec.c 中 定义 
的 , 这 里 用 它 对 字符 吊 指 针 数 组 argv[ ] 中 参数 的 个 数 进行 计 数 ， 而 bprm.p/sizeof(void*) 表 泵 允许 的 最 大 
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值 。 同 样 ， 对 作为 参数 传 过 米 的 坏 境 变量 也 旧 通 过 count( ) 计 数 。 注 意 这 里 的 数组 argv[ ] 和 envp[ ] 是 在 
用 户 空 间 而 不 在 系统 空间 ， 所 以 计数 的 操作 ;并 不 那么 简单 。 函 数 count ) 的 代码 在 fs/exec.c 中 ， 它 本 身 
的 代码 很 简单 ， 但 是 引用 的 宏 定义 get_user( ) 却 颇 有 些 挑 战 忻 ， 值 得 一 起 。 它 也 与 第 3 章 中 介绍 过 的 
_generic_copy_from_user( ) 相 似 ， 我 们 把 它 留 给 读者 作为 练习 。 有 关 的 代 但 在 include/asm-i386/uaccess.h 
All arch/i386/lib/getuser.S 中 ， 调 用 的 路 径 为 [count( ) > get_user( ) > _get_user( ) > _get_user_4( )]。 如 果 
count( ) 失 败 ， 邵 返回 负 值 ， 则 要 对 目标 文件 执行 一 次 allow, write access( )。 这 个 函数 是 与 
deny_write_access( ) 配 对 使 用 的 ， 目 的 在 于 防止 其 他 进程 (可 能 在 另 一 个 CPU 上 和 运行》 在 读 入 可 执行 
文件 期 间 通 过 内 存 上 映射 改变 它 的 内 容 ( 详 见 “ 文 件 系统 ”以 及 系统 调用 mmap( ))。 与 其 配对 的 
deny_write_access( ) 是 在 打开 可 执行 文件 时 在 open_exec( ) 中 调用 的 。 

完成 了 对 参数 和 环境 变量 的 计数 以 后 ，do_execve( ) 又 调用 prepare_binprm( )， 进 一 步 做 数据 结构 
bprm 的 准备 工作 ， 从 可 执行 文件 中 读 入 开头 的 128 个 学 节 到 linux_binprm 结构 bprm 中 的 缓冲 |x。 当 
然 ， 仕 读 之 前 还 要 先 俭 验 当 前 进程 是 否 有 这 个 权力 ， 以 及 该 文件 是 否 有 可 执行 属性 。 如 果 可 执行 文件 
AUS. "set uid” 特 性 则 要 作 相 应 的 设置 。 这 个 函数 的 代码 也 在 exec.e 中 。 帆 丁 涉及 文件 操作 的 细节 ,我 
们 建议 读者 华 学 习 了 “文件 系统 ”以 后 骨 回 过 来 自行 阅读 。 此 处 先 说 明 为 什么 只 是 先 读 128 MET, 
这 是 因为 ， 不 管 日 标 文件 是 elf HAIG aout 格式 ， 或 者 别 的 格式 ， 人 在 开头 128 个 字 节 中 都 包括 了 关 
于 可 执行 文件 属性 的 必要 而 充分 的 优 息 。 等 一 下 读者 就 会 看 到 这 些 信息 的 用途。 

最 后 的 准备 工作 就 是 把 执行 的 参数 ， 也 束 是 argv[ ]， 以 及 运行 的 环境 ， 也 就 是 envp[ ]， 从 用 户 空 
1025 VS eat) bprm Po 其 中 的 第 1 个 参数 argv[0] 就 是 可 执行 文件 的 路 径 名 , 已 经 在 bprm filename 
中 了 ， 所 以 用 copy_strings_kernel( ) 从 系统 空间 中 拷贝 ， 其 他 的 就 此 用 copy. strings OAH A SE 

全 此 ， 上 所 有 的 准备 工作 都 已 完成 ， 所 有 必要 的 们 息 都 已 经 搜集 到 了 linux_binprm 结构 bprm 中 ， 
接 下 来 就 些 装 入 并 运行 目标 程序 了 (exec.c): 





[sys execve( ) > do_execve( )] 


888 retval = search binary handler (&bprm, regs) ; 
889 if (retval >= 0) 

890 /* execve success */ 

891 return retval; 

892 

893 out: 

894 /* Something went wrong, return the inode and free the argument pagos*/ 
895 allow write access (bprm. file); 

896 if (bprm. file) 

897 fput (bprm. file); 

898 

899 for (i 20 ; i < MAX ARG PAGES ; i++) { 
900 struct page * page ~ bprm.pagelil; 

901 if (page) 

902 . free page (page); 

903 } 

904 

905 return retval; 

906} 
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记 然 ， 这 里 的 关键 是 search binary handler(). ZEE A [iX PRORA BE Bi. "ofr :个 大 概 。 内 
核 中 有 一 个 队列 ， 叫 formats， 桂 在 此 队列 中 的 成 员 是 代表 着 各 种 可 执行 文件 格式 的 “代理 人 ” 每 个 
成 员 只 兴 识 并 日 处 埋 :种 特定 格式 的 可 执行 文件 的 运行 。 在 前 面 的 准备 阶段 中 ， 已 经 从 可 执行 文件 头 
部 读 入 了 128 个 字 节 存放 在 bprm 的 缓冲 |x， 而 且 运 行 所 需 的 参数 和 环境 变量 也 忆 经 收集 在 bprm rh. 
现在 跳 由 formats 队列 中 的 成 员 逐 个 来 认领 ， 谁 要 是 辨认 到 了 它 所 代表 的 可 执行 文件 格式 ， 运 行 的 事 就 
交 给 它 。 要 是 都 不 认识 呢 ? 那 就 根据 文件 头 部 的 信息 再 找 找 看 ， 是 理 有 为 此 种 格式 设计 ， 但 是 作为 可 
动态 安装 横 蕊 实现 的 “代理 人 ”存在 二 文件 系统 中 。 如 果 有 的 话 就 把 这 模块 安装 进来 并 旦 将 其 持 入 到 
formats 队列 中 ， 然 后 让 formats 队 全 中 的 备 个 “代理 人 ”再 来 试 一 次 。 

函数 search_binary_handler( ) 的 代码 也 在 exec.c 中 ， 其 中 有 一 段 是 专门 针对 alpha 处 理 器 的 条 件 纺 
译 ， 在 下 列 的 代码 中 跳 过 了 这 段 条 件 编译 语句 : 


[sys execve( ) > do execve( ) > search_binary_handler( )] 


747 /*k 
148 * cycle the list of binary formats handler, until one recognizes the image 
149 */ 


150 int search binary handler (struct linux binprm *bprm, struct pt regs *roegs) 
751 { 

752 int try, retval=0; 

753 struct linux binfmt *fmt; 

754 #ifdef alpha . 


=o» 0» p ç u ç * 


785 #endif 

786 for (try=0; try<2: try++) { 

787 read lock(&binfmt lock); 

788 for (fmt = formats ; fmt ; fmt = fmt->next) { 
789 int (*fn) (struct linux binprm *, struct pt rogs *) = fmt >load binary; 
790 rf (fn) 

791 continue; 

792 if ('try inc mod count (fmt—>module)) 
193 continue; 

194 read unlock(&binfmt lock); 

795 retval - fn(bprm, regs); 

796 if (retval >= 0) | 

797 put binfmt (fmt) ; 

798 allow write access(bprm— file); 
799 if (bprm->file) 

800 {put (bprm-^file):; 

801 bprm->file = NULL; 

802 current->did exec = 1: 

803 return retval; 

804 } 

805 read lock (&binfint_ lock) ; 

806 put_binfmt (fmt) ; 

807 if (retval != -ENOEXEC) 

808 break; 
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809 if (bprm->file) { 

810 read unlock(&binfmt lock); 

811 return retval; 

812 } 

813 } 

814 read unlock(&binfmt lock); 

815 if (retval != ENOEXEO) { 

816 break; 

817 #ifdef CONFIG KMOD 

818 Jelse{ 

819 #define printable(c) (((c)==\t’) || EKos An \ 
|i (0x20<=(c) && (c) <=0x7e)) 

820 char modname [20] ; 

821 if (printable (bprm->buf[0]) && 

822 printable (bprm->buf[1]) && 

823 printable (bprm->buf{2]) && 

824 printable (bprm->buf [3])) 


825 break; /* -ENOEXRC */ 
826  sprintf(modname, "binfmt-*04x", 
*(unsigned short *) (&bprm—>buf [2])); 
827 request module (modname) ; 
828 Hendil 
829 } 
830 } 
831 return retval; 
832 } 


程序 中 有 两 层 腾 套 的 for 循环 。 内 层 是 对 formats 队列 中 的 每 个 成 员 利 环 ， 让 队列 中 的 成 员 逐 个 试 
试 它们 的 load, binary ) 函 数 ， 看 看 能 省 对 上 号 。 如 果 对 上 了 号 ， 那 就 把 日 标 文 件 装 入 并 将 其 投入 运行 ， 
再 返回 一 个 止 数 或 0。 当 CPU 从 系统 调用 返回 时 ， 谤 日 标 文件 的 执行 就 真 止 开始 了 。 省 则 ， 如 果 不 能 
辨识 ， 或 者 在 处 理 的 过 程 中 出 了 错 ， 就 返回 一 个 负数 。 出 错 代 码 一 ENOEXEC (n HOSP ES, M 
并 没有 发 生 其 他 的 错误 ， 所 以 循环 回去 ， 让 队 便 中 的 下 -全 成 员 再 来 试 试 。 但 是 如 果 出 了 错 和 而 又 并 不 
是 一 ENOEXEC， 那 就 表示 对 上 了 号 但 出 了 共 他 的 错 ， 这 就 不 用 再 计 其 他 的 成 员 来 试 耳 。 

内 层 循 环 结束 以 后 ， 如 果 失 败 的 原 内 是 一 ENOEXEC， 就 说 明 队 多 中 所 有 的 成 员 都 不 认识 目标 文件 
的 格 上 成 。 这 时 候 ， 如 果 内 核 支持 动态 安装 模块 《取决 十 编译 选择 项 CONFIG., KMODO, SU Hbi x 
件 的 第 2 和 第 3 个 字 节 生成 :个 binfmt 模块 名 , 通过 request_module( ) 试 着 将 相应 的 模块 装 入 ( 见 本 书 
“文件 系统 ”和 “设备 驱动 ”两 章 中 的 有 关内 容 )。 外 层 的 for 循环 共 进 行 两 次 ， 正 是 为 了 在 安装 了 模 
块 以 后 再 来 试 次 。 

能 在 Linux 系统 上 运行 的 可 执行 程序 的 开头 几 个 字 节 ， 特 别 是 井 头 4 个 字 节 ， 人 往往 构成 PATA 
的 magic number， 如 果 把 它 拆 开 成 字 节 ， 则 往往 又 是 说 明文 件 格式 的 字符 。 例 如 ，elf 格式 的 可 执行 文 
件 的 头 四 个 字 节 为 “0x7F”、“e”、“1” 和 “f” 而 java WERIT LRAT EA Se” a” P 
FI “e”. WRAT XA Shell 过 程 或 perl 文件 ， 即 第 一 行 的 格式 为 #! /bin/sh 或 #t/usr/bin/perl， 此 时 
第 一 个 字符 为 “#”， 第 .个 字符 为 “!”， 后 面 是 相应 解释 程序 的 路 径 名 。 

Xi £j linux_binfmt 定义 于 include/linux/binfmts.h 中 ， 前 面 已 经 在 到 过 了 。 结 梅 中 有 = 个 函数 指 
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$1, load binary 用 来 逆 入 可 执行 程序 ，load_shlib 用 来 装 入 动态 安装 的 公用 库 程 序 ， 而 core_dump 的 作 
用 则 不 言 自 明 。 显 然 ， 这 里 最 根本 的 是 load_binary。 辣 时 ， 如 果 不 搞 清 具 体 的 装载 程序 怎 栏 工 作 ， 就 
很 难 对 execve( )、 进 而 对 Linux 进程 的 运行 有 深刻 的 理解 。 下 面 我们 以 aout 格式 为 例 ， 讲 述 装 入 半 启 
动 执行 目标 程序 的 过 程 。 其 实 ，a.out 格式 的 可 执行 义 件 已 经 渐渐 被 淘汰 了 ， 取 市 代 之 的 是 elf 格式 。 
但 是 ，a.out 格式 划 简 单 得 多 ， 并 且 方 便 我 们 通过 它 来 讲述 目标 程序 的 装载 和 投入 运行 的 过 程 ， 所 以 从 
篇 幅 考虑 我 们 选择 了 a.out。 读 者 在 摘 清 了 aout 格式 的 装载 和 投 运 过 程 以 后 ， 可 以 自行 阅读 有 关 elf 格 
式 的 相关 代码 。 


4.4.1 aout 格式 目标 文件 的 装载 和 投 运 


与 aout 格式 可 执行 文件 有 关 的 代码 都 在 fs/binfmt_aout.c 中 - 先 来 看 aout 格式 的 Hinux_binfmt 数据 
结构 ， 这 个 数据 结构 就 是 在 formats 队列 中 代表 aout 格式 的 ; 


38 static struct linux binfmt aout format = | 
39 NULL, THIS MODULE, load aout binary, 

load aout library, aout core dump , PAGE SIZE 
40 H}; 


Bea WOR ES gir ren I A A B ISTE m SUCEDE BG S EAB aout 格式 日 标 义 件 的 函数 为 
load aout binary( ). BJLAAER, EPR, RRA. RIMES, : 段 一 段 
往 下 看 。 其 代码 在 binfmt. aout.c 中 : 


[sys_execve( ) > do_execve( ) > Search_binary_handier( ) > load_aout_binary( )] 


249 /* 

250 * These are the functions used to load a.out style executables and shared 
251 * libraries. There is no binary dependent code anywhere else. 

252 */ 

253 


254 static int load aout binary (struct linux hinprm * bprm, 
struct pt regs * regs) 


255 { 
256 struct exec ex; 
257 unsigned long error; 
258 unsigned long fd offset; 
259 unsigned long rlim; 
260 int reival; 
261 
262 ex = *((struct exec *) bprm >buf); /* exec-header */ 
263 if ((N MAGIC(ex) !- ZMAGIC && N MAGIC(ex) !- OMAGIC && 
264 N MAGIC(ex) != QMAGIC && N MAGIC(ex) != NMAGTC) || 
265 N_TRSIZE(ex) || N_DRSIZE(ex) | 
266 bprm->file 5f dentry-?d inode—^i size < 

ex. a_text+tex, a data*N SYMSTZE (ex) +N_TXTOFF(ex)) { 
267 return -ENOEXRC; 
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268 } 


首先 是 检查 目标 文件 的 格式 ， 看 看 是 否 对 上 号 。 所 有 aout 格式 可 执行 文件 〈 二 进 制 代码 》 WK 
都 应 该 是 一 个 exec 数据 结构 ， 这 是 在 include/asm-i386/a.out.h 中 定义 的 : 


4 struct exec 

5 { 

6 unsigned long a info; /* Use macros N MAGIC, etc for access */ 

7 unsigned a_text; /* length of text, in bytes */ 

8 unsigned a data; /* length of data, in bytes */ 

9 unsigned a bss; /* length of uninitialized data area for file, in bytes */ 
10 unsigned a_syms; / length of symbol table data in file, in bytes*/ 
11 unsigned a_entry; /* start address */ 

12 unsigned a trsize; /* length of relocation info for text, in bytes */ 

13 unsigned a drsize; /* length of relocation info for data, in bytes */ 
l4 Hh; 

15 


16 Hdefine N_TRSIZE (a) ((a).a_trsize) 
17 #define N_DRSIZE (a) — ((a).a drsize) 
18 define N_SYMSIZE(a) ((a).a syms) 


结构 中 的 第 一 个 无 符号 区 整数 a_info 在 逻辑 上 分 成 两 部 分 ， 其 高 16 位 是 -个 代表 日 标 CPU 类 型 
的 代码， 对 于 i386CPU 这 部 分 的 值 为 100《0x64)， 而 低 16 位 就 是 magic number。 个 过 ，a.out 文件 的 
magic number 并 不 像 在 有 的 格式 中 那样 是 可 打印 字符， 市 是 表示 某 些 属性 的 编码 ， 一 共有 四 种 ， 即 
ZMAGIC、OMAGIC、QMAGIC 以 及 NMAGIC， 这 是 在 include/linux/a.out.h 中 定义 的 ; 


60 /* Code indicating object file or impure executable. */ 

61 #define OMAGIC 0407 

62 /* Code indicating pure executable. */ 

63 #define NMAGIC 0410 

64 /* Code indicating demand-paged executable.  */ 

65 define ZMAGIC 0413 

66 /* This indicates a demand-paged executable with the header in the text. 


67 The first page is unmapped to help trap NULL pointer references */ 
68 Hdefine QMAGIC 0314 
69 


70 /* Code indicating core file. */ 
71 &define CMAGIC 0421 


如 果 magic number 不 符 ， 或 者 exec 结构 中 提供 的 信息 与 实际 不 符 ， 那 就 个 能 认为 这 个 目标 文件 是 
aout 格式 的 ， 所 以 返回 一 ENOEXEC 。 
继续 在 binfmt aout.c PCE FA: 


[sys_execve( ) > do, execve( ) > search, binary. handler( ) > load_aout_binary( )] 
270 fd offset = N_TXTOFF (ex) ; 
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271 

272 /* Check initial limits. This avoids letting people circumvent 
273 * size limits imposed on them by creating programs with large 
274 * arrays in the data or bss. 

215 */ 

216 rlim = current->rlim[RLIMIT DATA]. rlim cur: 

277 if (rlim >= RLIM INFINITY) 

278 rlim = ^0; 

279 if (ex.a data + ex.a bss > rlim) 

280 return -ENOMEM; 

281 

282 /* Flush all traces of the currently running executable */ 

283 retval = flush old exec(bprm); 

284 if (retval) 

285 return retval; 

286 

287 /* OK, This is the point of no return */ 


各 种 aout RAFA ELE OS EAR, OIE CAS RSA BA a). CQ ee 
作 N_TXTOEFF()， 以 便 根据 代码 的 特 忻 取得 正文 在 日 标 文 件 中 的 起 始 位 置 ， 这 是 在 include/linux/a.out.h 
中 定义 的 : 


80 #define N HDROFF (x) (1024 - sizcof (struct exec)) 

81 

82 #if !defined (N TXTOFF) 

83 #define N_TXTOFF (x) \ 

84 (N MAGIC(x) == ZMAGIC ? _N HDROFF((x)) + sizeof (struct exec) : \ 
85 (N MAGIC). == QMAGIC ? 0 : sizeof (struct exec))) 

86 tendif 


以 亲 曾 经 讲 过 ， 每 个 进程 的 task. struct 结构 中 有 个 数组 rim， 规 定 了 该 进程 使 用 各 种 资源 的 限制 ， 
其 中 也 包括 对 用 十 数据 的 内 存 空 间 的 限制 。 所 以 ， 上 月 标 文件 所 确定 的 data FU bss 两 个 “ 段 ” 的 总 和 不 
能 超出 这 个 限制 。 

顺利 通过 了 这 些 检 验 就 去 示 其 备 了 执行 该 日 标 文件 的 条 件 ， 所 以 就 到 了 “与 过 去 告别 ”的 时 候 。 
这 种 “全 别 过 去 ”意味 者 放 痉 从 父 进程 “ 继 随 ”上 来 的 全 部 几 户 空间 ， 不 管 是 通过 复制 还 是 通过 共享 
继承 下 来 的 。 不 过 ， 下面 读 者 会 看 到 ， 这 种 告别 也 并 站 彻 底 的 决裂 。 

Px 3 flush_old_exec( KH RISE Æ exec.c "P: 


[sys execve( ) > do execve( ) > search_binary_handler( ) > load_aout_binary( ) > flush_old_exec( )] 


523 int flush_old_exec (struct linux binprm * bprm) 


524 i 

525 char * name; 

526 int i, ch, retval; 

527 struct signal struct * oldsig; 
528 


. 315. 


moo a c c 
wooo CI c 
ne C0 P3 — c 


: 316. 


Linux 内 核 源 代码 情景 分 析 ( EDD 
/* 


* Make sure we have a private signal table 
*/ 

oldsig = current-?sig; 

retval = make private signals( ); 

if (retval) goto flush failed; 


/* 

* Release all of the old mmap stuff 
*/ 

retval - exec mmap( ); 

if (retval) goto mmap failed; 


/* This is the point of no return */ 
release old signals(oldsig); 


current-^sas ss sp = current-?sas ss size = 0; 


if (current-^euid == current->uid && current—>egid == current-^gid) 


current—>dumpable = 1; 
name = bprm->filename; 
for (i20; (ch = *(name++)) !=7\0';) { 
if (ch 22 ' /) 
i = 0: 
else 
if (i < 15) 
current >comm[i++] - ch; 
} 


current—>comm[i] =’ \0’ ; 

flush thread( ); 

de_thread (current) ; 

if (bprm->c_uid != current->euid || bprm->e gid !- current~>egid 
permission (bprm >file—f_dentry—>d_inode, MAY_READ) ) 


current->dumpable = 0; 


/* An exec changes our domain. We are no longer part of the thread 
group */ 


current—>self_exec idtt; 


flush signal handlers (current) ; 
flush old files(current >files); 


return 0; 


577 
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579 
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mnap failed: 

flush failed: 
spin lock irq(&current-^sigmask lock); 
if (current—>sig != oldsig) 

kIree(current-^sig); 

current-?sig ~ oldsig; 
spin, unlock irq(&current-^5sigmask lock); 
return retval; 


} 


BCE fa SCARAB) 处 理 表 。 我 们 讲 过 ，-: 一 个 进程 的 信号 处 理 表 就 好 像 一 个 系统 中 的 中 
量 表 ， 虽 然 运 几 的 层次 不 同 ， 其 概念 是 相似 的 。 当 子 进程 被 创建 出 来 时 ， 父 进程 的 信号 处 理 表 可 
经 复制 过 来 ， 但 也 有 可 能 只 是 把 父 进程 的 信号 处 理 表 指 针 复 制 了 过 来 ， 而 通过 这 指针 来 共享 父 进 
信号 处 理 表 。 现 在 ， 子 进程 最 终 要 “自立 门户 ”了 ， 所 以 要 看 一 人 ， 如 果 还 在 共享 父 进 程 的 信和 号 
表 的 话 ， 就 要 把 它 复 制 过 米 。 正 因为 这 样 ，make_private_signals( ) 的 代码 与 do_fork( ) 中 调用 的 


copy. sighand( ) 基 本 相同 。 


[sys_execve( ) > do execve( ) > search_binary_handler( ) > load_aout_binary( ) > flush_old_exec( )> 
make_private_signals( )] 


429 
430 
431 
432 
433 
434 
435 
436 
437 
438 
439 
440 
44] 
442 
443 
444 
445 
446 
441 
448 
449 
450 
451 
152 


/* 

* This function makes sure the current process has its own signal table, 
so that flush signal handlers can later reset the handlers without 
disturbing other processes. (Other processes might share the signal 
* table via the CLONE SIGNAL option to clone( ).) 

*/ 


*o x 


static inline int make private signals (void) 
{ 


struct signal struct * newsig; 


if (atomic read(&current—^sig-^count) <= 1) 
return 0; 
newsig = kmem cache alloc (sigacl cachep, GFP KERNEL): 
if (newsig -- NULL) 
return -ENOMFM; 
spin lock init (&newsig-^siglock); 
atomic set(&newsig-^count, 1); 
memcpy (newsig->action, current—->sig->action, sizeof (newsig->action)) : 
spin_lock_irg(&current—>sigmask_ lock); 
current-?sig - newslg; 
spin unlock irq(&current-^sigmask lock); 
return 0; 


j 
读者 也 许 要 问 : 既然 最 终 偿 是 要 把 它 复制 过 来 , 何不 在 当初 一 步 就 把 它 复制 好 了 ? 这 就 是 所 谓 “lazy 


computation 的 概念 : 一 件 事情 只 有 在 韭 做 不 可 时 才 做 。 明 然 新 创建 的 进程 一 般 都 会 执行 execve( ),，“ 走 
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Bai", 但 这 是 没有 保证 的 。 如 果 创 建 的 是 线程 那 就 不 : 定 会 执行 execve( )， 如 果 一 律 企 创建 时 就 
复制 就 可 能 造成 浪费 而 且 不 符合 旨 求 。 再 说 ， 惟 查 -- 下 是 否 还 在 与 父 进程 共享 信号 处 理 表 《〈 遂 过 检查 
共享 计数 ) 所 花费 的 代价 是 很 小 的 。 当 然 ， 如 果子 进程 是 通过 fork( ) 创 建 出 来 的 话 《 而 不 趾 vfork( ) 或 
__clone( ))， 那 就 定 都 已 经 复制 好 了 ， 这 里 的 make_private_signals( OR PIERA TREAS 
上 回来 了 。 

HIZ F, exec_mmap( ) 是 更 为 关键 的 行动 ， 从 父 进 程 继承 下 来 的 用 户 空间 就 是 在 这 里 放 佐 的 。 其 
代码 在 问 一 文件 (exec.c) i 


{sys_execve( ) > do, execve( ) > search binary. handler( ) > load_aout_binary( ) > flush old. exec( ) 
> exec mmapx )] 


385 static int exec mmap (void) 

386 { 

387 struct mm struct * mm, * old mm; 

388 

389 old mm = current-^mm; 

390 if (old mm && atomic read(&old mm-^mm users) == 1) ( 
391 flush cache mm(old mm); 

392 mm release( ); 

393 exit mmap(old mm); 

394 flush tlb mm(old mm); 

395 return 0; 

396 } 

397 

398 mm = mm alloc( ) 

399 if (mm) { 

400 struct mm struct *active_mm = current—>active_mm; 
40] 

402 if (init new context (current, mm)) { 
403 mmdrop (mm) ; 

404 return -ENOMEM; 

405 } 

406 

407 /* Add it to the list of mm s */ 

408 spin lock(&mmlist lock); 

409 list add(&mm-^mmlist, &init mm.mmlist); 
410 spin unlock(&mmlist lock); 

411 

412 task lock (current) ; 

413 current-^mm = mm; 

414 current-^»activo mm = mm; 

415 task unlock(currenti): 

416 activate mm(active mm, mm); 

417 mm release( ); 

418 if (old mp { 

419 if (active mm !- old mm) BUG( ) ; 
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420 mmput (old mm); 
421 return 0; 

422 } 

423 mmdrop (active mm); 
424 return 0; 

425 ] 

426 return -ENOMEM; 

427  ] 


间 样 ， 子 进程 的 用 户 空 间 吕 能 是 父 进 程 用 广 衬 间 的 复制 总 ， 也 可 能 内 是 通过 一 个 指针 来 共享 父 进 
程 的 用 户 守则 ， 这 一 点 内 要 检查 一 下 对 用 户 空间 、 也 就 是 current->mm 的 共享 计数 就 可 清楚 。 当 共享 
计数 为 1 时 ， 胡 只 对 此 衬 问 的 使 用 是 独占 的 ， 也 就 是 说 这 是 从 父 进程 复制 过 来 的 ， 那 就 要 先 释放 
mm struct 数据 结构 以 下 的 所 有 vm area struct 数据 结构 〈 但 是 不 包括 mm struct 结构 本 身 )， 并 且 将 页 
面 表 中 的 表 项 都 设置 成 0。 具体 地 这 是 由 exit mmap( ) 完 成 的 ， 上 其 代码 在 mm/mmap.c 中 ， 读 者 串 自 行 
lk. TEV AA exit_mmap( ) 之 前 还 调用 了 一 个 函数 mm_release( )， 对 此 我 们 将 在 稍 后 加 以 讨论 ， 因 为 在 
乒 面 也 调用 了 这 个 岁数 。 全 于 flush cache mm( ) 和 flush_tlb_mm( )， 那 只 是 使 高 速 缓 存 与 内 存 相 一 致 ， 
不 在 我 们 现在 关心 乙 列 ， 而 此 前 者 对 1386 EXER TTR AS LE ey. CHB in] : 句 ， 人 在 父 进程 
fork( ) 子 进程 的 时 候 ， 兴 学府 苦 地 复制 了 代 友 用 户 空 间 的 所 有 数据 结构 ， 难 道 月 的 就 在 于 稍 后 在 执行 
execve( ) 时 又 辛 辛 车 苦 把 它们 全 部 释放 ? MASH, PIANI? 是 的 ， 这 确实 不 合理 。 这 就 是 在 有 了 
fork( ) 系 统 调用 以 后 又 增加 了 一 个 vfork( ) 系 统 调 用 { 从 BSD Unix 开始 ) 的 原因 。 让 我 们 回 大 下 
sys_fork( ) 与 sys. vfork( ) 在 调用 do_fork( ) 时 的 不 同 (process.c): 


690 asmlinkage int sys fork(struct pt regs regs) 


691 | 
692 return do fork(SIGCHLD, regs.esp, &regs, 0); 
603  ] 


717 asmlinkage int sys vfork(struct pt regs regs) 


718 — | 
719 return do fork(CLONE VFORK | CLONE VM | SIGCHLD, regs.esp, &regs, 0); 
720 .] 


nL, sys vfork( ) 在 调用 do, fork( ) 时 比 sys_fork( ) 多 了 两 个 标记 位 ， 一 个 是 CLONE, VFORK, 45 
一 个 是 CLONE VM. %4 CLONE VM 标志 位 为 1 时 ， 内 核 并 不 将 父 进 程 的 用 户 空 间 (数据 结构 ) 复制 
给 子 进 程 ， 向 只 是 将 指向 mm stmet. 数据 结构 的 指针 复制 给 子 进 程 ， 让 子 进程 通过 这 个 指针 来 共享 父 
进程 的 用 户 空间 。 这 样 ， 创 建 了 进程 时 可 以 免 太 复制 用 户 空间 的 麻烦 。 出 当 子 进程 调用 execve( ) 叶 就 
可 以 跳 过 释放 用 户 罕 间 这 ob. LRA THERES) BCA ADH Sh). (ASL, KO RPA ET, 
坦 可 能 带 来 新 的 问题 。 以 前 讲 过 ，fork( ) 以 后 ，execve( ) 之 有 盯 ， 子 进程 昌 然 有 必 和 白 己 的 一 整套 代表 用 户 
空间 的 数据 结构 ， 但 是 最 终 在 物理 上 还 是 与 父 进程 共用 相同 的 页 而 。 不 过 ， 由 十 子 进程 有 续 独 立 的 页 
向 目录 与 页 面 表 ， 中 以 在 子 进程 的 页 面 表 持 把 对 所 有 负 向 的 访问 权限 都 设置 成 “只 读 ”。 这 样 ， 当 于 进 
程 企图 改变 某 个 页 面 的 内 容 时 ， 就 会 因 权 限 不 符 而 导 斤 和 抽 和 而 异常 ， 在 页 而 异常 的 处 理 程序 中 为 子 进程 
复制 历 需 的 物理 页 而 ， 这 就 叫 “copy_on_write”。 相 比 之 下 ， 如 果 了 进程 与 父 进程 共享 用 户 室 间 ， 也 就 
是 其 齐 包 括 页 出 表 人 在 内 的 所 有 数据 结构 ， 那 就 无 法 实施 "copy_on_write" 了 。 此 时 子 进 程 所 写 入 的 内 容 
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就 真正 进入 了 父 进程 的 空间 中 。 我 们 知道 ， 当 “个 进程 在 用 户 空 间 运 行 时 ， 其 堆栈 也 在 用 万 空间 。 这 
意味 着 在 这 种 情况 下 子 进程 可 以 改变 父 进 程 的 堆栈 ， 反 过 来 父 进 程 也 可 以 改变 子 进程 的 堆栈 ! 因为 这 
个 原因 ，vfork( ) 的 使 用 是 很 危险 的 ， 在 了 进 种 尚未 放弃 对 父 进程 用 户 空 间 的 共享 之 前 ， 绝 不 能 让 两 个 
进程 都 进入 系统 空间 运行 。 所 以 ， 在 sys vfork( ) 调 用 do fork( ) 时 结合 使 用 了 男 一 个 标志 位 
CLONE_VFORK。 当 这 个 标志 位 为 1 F, SFREE T TR A EA ERARA, Sik TAE 
过 execve( ) 执 行 另 个 目标 程序 , 或 者 通过 exi ) 寿 终 下 究 。 在 这 两 种 情况 下 子 进程 部 会 释放 其 共享 的 
川 户 空间 ， 使 父 进 程 可 以 安全 地 继续 运行 。 即 使 如 此 ， 也 还 是 有 人 危险， 子 进 程 绝 对 不 能 从 凋 族 vfork() 
的 那个 冰 数 中 返回 ， 备 则 述 是 可 能 破坏 父 进程 的 返 同 地 第 。 所 以 ，vfork( ) 实 际 上 是 建立 在 了 进程 在 创 
建 以 后 立即 就 会 调用 execve( ) 这 个 前 提 之 上 的 。 

HSA, 怎样 使 父 进程 进入 睡眠 而 等 待 子 进程 调用 execve( ) 或 exit( ) 昵 ?当然 可 以 有 个 同 的 实现 。 读 
者 已 经 在 do_fork( ) 的 代码 中 看 到 了 内 核 让 父 进程 在 :个 0 资源 的 “信号 量 ” 上 执行 一 次 down( ) 操 作 而 
进入 睡眠 的 安排 ， 这 里 的 mm_release( ) 则 让 子 进程 在 此 信和 吕 量 | 执行 一 次 up() 拘 作 将 父 进程 唤醒 。 盟 
数 mm_release( ) 的 代码 在 fork.c F: 


[sys execve( ) > do execve( ) > search_binary_handler( ) > load aout binary( ) > 
flush. old, exec( )» exec. mmap( ) > mm release( )] 


255 /* Please note the differences between mmput and mm release. 
256 * mmpul is called whenever we stop holding onto a mm struct, 
257 * error success whatever. 

258 * 

259 * mm release is called after a mm_struct has been removed 
260 * from the current proccss. 

261 * 

262 * This difference is important for error handling, when we 
263 * only half set up a mm struct for a new process and need to restore 
264 * the old one. Because we mmput the new mm struct before 
265 * restoring the old one. . . 

266 * Eric Biederman 10 January 1998 

267 */ 

268 void mm release (void) 

269 { 

270 struct task struct *tsk - current; 

271 

272 /* notify parent sleeping on vfork( ) */ 

213 if (tsk->flags & PF VFORK) { 

274 tsk->flags &- ~PF_VFORK; 

275 up (tsk—>p_opptr—>vfork_sem) ; 

276 } 

277 } 


PIF] exec mmap( FP, WRTH III 78 RI ASSETS EE ACER ty AE SU. BRR A A 
户 空 间 ， 那 就 不 需要 调用 exit mmap( ) 释 放 代 表 用 户 空 间 的 孝 些 数据 结构 了 。 但 是 ， 此 时 要 为 子 进程 分 
配 一 个 mm struct. 数据 结 榴 以 及 页 面目 了 未， 使 得 稍 后 可 以 在 此 基础 上 建立 起 子 进 程 的 用 户 空间 。 对 于 
i386 结构 的 CPU， 这 里 的 init_new_context( E TRE, AAE 0， 所 以 把 它 跳 过 。 把 当前 进程 的 
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task struct 结构 中 的 指针 mm 和 active mm 设置 成 指向 新 分 配 的 mm. struct 数据 结构 以 后 ， 就 此 通过 
activate mm( ) 切 换 到 这 个 新 的 用 户 空间 。 这 是 “个 宏 操作 ， 定 义 于 include/asm-i386/mmu_context.h: 


61 #define activate mm(prev, uext) V 
62 switch mm((prev), (next), NULL, smp processor id( )) 


我 们 将 在 “进程 的 调度 与 切换 ” “ 节 中 阅读 switch mm( ) 的 代码 ， 在 这 里 只 要 知道 当前 进程 的 用 
户 空间 切换 到 了 由 新 分 配 mm, struct. 数据 结构 所 代表 的 空间 就 可 以 了 。 还 此 指出 ， 现 在 新 的 “ 诈 户 空 
间 ” 实 际 上 只 是 一 个 框架 ， 一 个 “ 堂 过 ” 里 而 一 个 页 面 也 没有 。 另 一 方面 ， 现 在 是 在 内 核 中 运行 ， 所 
以 用 户 空 间 的 切换 对 目前 的 运行 许 无 影响 。 

可 巴 ， 原 米 的 用 户 空间 则 从 此 与 当前 进程 无 关 了 。 也 就 是 说 ， 当 前 进程 最 终 放 弃 了 对 原来 用 户 空 
间 的 共享 。 当 然 ， 此 时 要 执行 mm release( ) 将 父 进 程 唤 醒 。 实 际 上 ，CLONE_VFORK 通常 都 是 与 
CLONE, VM 标志 相 联 系 的 ， 所 以 这 里 对 mm_release() 的 调用 更 为 关键 , 而 前 面 的 mm, release( ) 则 只 是 
“以 防 万 一 ”而 已 。 老 么 ， 对 于 父 进 程 的 用 户 空 间 电 ? 当然 此 减少 它 的 共享 计数 。 此 外 ， 如 果 将 它 的 
共享 计数 减 1 以 后 达到 了 0, 则 还 要 将 其 下 属 的 数据 结构 释放 , 因为 此 时 己 没 有 进程 还 在 使 用 这 个 空间 
了 。 这 是 山 mmput() 完 成 的 ， 其 代码 在 fork.c 中 : 


[sys execve( ) > do execve( ) > search_binary_handler( ) > load_aout_binary( ) > flush. old. exec( )» 
exec mmap( ) > mmput( )] 


242 /* 

243 * Decrement the use count and release all resources for an mm. 
244 */ 

245 void mmput(struct mm struct *mm) 

246 { 

247 if (atomic dec and lock(&mm »mm users, &mmlisi lock)) { 
248 list del(&mm-^mmlist); 

249 spin unlock(&mmlist lock); 

250 exit mmap (mm) ; 

251 mmdrop (mm) ; 

252 } 

253} 


wet, 将 mm->mm_users 减 1, 如 果 减 1 以 后 变 成 了 0, 就 对 mm 执行 exit_mmap( ) 和 mmdrop( )。 
我 们 已 经 介绍 过 exit_mmap( ) 的 作用 ， 它 释放 mm. struct 下 而 的 所 有 vm area. struct 数据 结构 ， 并 且 将 
页 面 表 中 与 用 户 空间 相对 应 的 表 项 都 设 曾 成 0， 使 整个 “用 户 空间 ”成 为 了 -一 个 “ 室 壳 光 hi mmdrop( )， 
则 进一步 将 这 守 沈 ， 也 就 是 页 面 表 和 和 抽 面 目录 以 及 mm struct. 数据 结构 本 身 ， 也 全 部 释放 了 。 不 过 ， 
这 只 是 在 将 父 进 程 的 mm->mm_users 减 1 以 后 变 成 了 0 这 种 特殊 情况 下 才 发 生 。 而 在 我 们 现在 这 个 情 
景 中 ， 既 然 子 进程 通过 指针 共享 父 进程 的 用 户 室 间 ， 则 父 进程 应 该 睡眠 等 待 ， 所 以 当 子 进程 释放 对 空 
间 的 共享 时 不 会 使 共享 计数 达到 0。 

回 到 前 面 exec mmap( ) 的 代码 中， 最 后 还 有 一 个 特殊 情况 要 考虑 ， 惠 就 是 当 子 进程 进入 
exec mmap( ) 时 ， 其 task_struct 结构 中 的 mm_struct 结构 指针 mm 为 0， 也 就 是 没有 用 户 空间 《所 以 是 
内 核 线 程 )。 但 是 ， 另 一 个 mm struct 结构 指针 active mm 邯 不 为 0， 这 是 因为 在 进程 切换 时 的 一 个 特 
PEAT SAT. 进程 的 task. struct PAWA mm_struct 结构 指针 :， -个 是 mm， 指 向 进程 的 用 户 空间 ， 
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另 :个 是 active mm。 对 于 共有 用 广 空 间 的 进程 这 两 个 指针 始终 是 一 致 的 。 但 是， 当 一 个 不 具备 用 户 空 
间 的 进程 (内 核 线程 ) 被 调度 运行 时 ， 要 求 它 的 active mm 一 定 要 指 问 某 个 mm, struct 结构 ， 所 以 只 好 
和 暂 借 一 个 。 在 这 种 情况 ， 内 核 将 其 active mm 设置 成 与 在 其 之 前 运行 的 那个 进程 的 active_mm 相同 ， 
而 在 调度 其 停止 运行 时 又 将 该 指针 设置 成 0。 也 就 是 说 ，-- 个 内 核 线程 在 受 调度 这 行 时 要 “ 佑 州 ” EE 
之 前 运行 的 那个 进程 的 active mm. ( 详 见 “ 进 程 的 调度 与 切换 六 ， 因 而 要 递增 这 个 mm. struct 结构 的 使 
用 计数 。 而 现在 ， 已 经 为 这 内 核 线程 分 配 了 它 自己 的 mm_struct 结构 ， 使 其 升格 成 为 了 进程 ， 就 个 骨 
使 用 借 米 的 active_mm 了 。 所 以 ， 要 调用 mmdrop( )， 递 减 其 使 用 计数 。 这 是 一 个 inline 函数 ， 其 代码 
在 include/linux/sched.h H: 


[sys execve( ) > do execve( ) > search binary handler( ) > load aout binary( ) > 
flush old exec( ) 
> exec mmap( ) > mmdrop( )] 


709 /* mmdrop drops the mm and the page tables */ 
710 extern inline void FASTCALL( | mmdrop(struct mm struct *)); 


711 static inline void mmdrop(struct mm struct * mm) 
712 f 

713 if (atomic dec and test(&mm-^mm count)) 

714 mmdrop (mm) ; 

715 |] 


而 __mmdrop( ) 的 代码 则 在 fork.c H: 


[sys execve( ) > do_execve( ) > search_binary_handler( ) > load_aout_binary( ) > 
flush_old_exec( )> exec mmap( ) > mmdrop( ) > __mmdrop( )] 


229 /* 

230 * Called when the last. reference to the mm 
231 * is dropped: either by a lazy thread or by 
232 * mmput. Free the page directory and the mm. 
233 */ 

234 inline void | mmdrop(struct mm struct *mm) 
235 { 

236 if (mm == &init mm) BUG( ); 

237 pgd_free(mm >pgd) ; 

238 destroy_context (mm) ; 

239 free mm(mm); 

240 } 


可 见 ，mmdrop() 在 将 一 个 mm, struct Be £5 64 FEZ. Bi E 3 RC PF TESTE HI VE 2C mm. count; J 
有 在 递减 后 变 成 0 才 会 将 其 释放 。 注 意 沿 个 计数 器 ， 即 mm users 与 mm count 的 区 别 。 在 mm struct 
结构 分 配 之 初 二 者 都 设 为 1， 然后 mm_users 随 子 进 程 对 用 户 党 间 的 共享 而 增 减 ， 而 mm, count 则 因 内 
核 中 对 该 mm_struct 数据 结构 的 使 用 出 增 减 。 

从 exec_mmap( ) 返 同 到 flush_old_exec( ) 时 ， 子 进程 从 父 进程 继承 的 用 卢 空间 已 经 释放 ， HAPS 
auem AA A5". tet — PCD On o IATA. UR ERE CLASE “ MER 
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顾 ” 了 ， 问 不 到 原来 的 用 户 空 间 中 去 了 《和 多 代码 由 的 注解 )。 前 击 讲 过 ， 当 前 进程 〈 了 上 进程》 不 米 可 能 
是 通过 指针 共享 父 进程 的 信号 处 埋 表 的 ， 而 现在 有 了 自己 的 独立 的 信号 处 理 表 ， 所 以 也 要 递减 父 进 种 
信和 气 处 理 衣 的 共享 半数， 并 用 如 果 递 减 后 为 0 贼 要 将 其 所 占 的 空间 释放 ， 这 就 是 release old signals( ) 
所 做 的 事情 。 此 外 , 进程 的 task_struct 结构 中 有 一 个 字符 数组 comm ], 用 米 保存 进程 所 执行 的 程 岸 名 ， 
所 以 还 时 把 bprm->filename 的 日 标 程序 路 么 名 中 的 最 后 一 段 抄 过 去 。 接 着 的 flush_thread( ) 只 是 处 理 与 
debug 和 i387 协 处 理 器 有 关 的 内 容 ， 不 是 我 们 所 关心 的 。 | 
如 霖 “当前 进程 ”原来 只 是 一 个 线程 ， 那 么 它 的 task_struct 结构 通过 结构 中 的 队列 头 thread. group 
挂 入 由 其 父 进程 为 首 的 “线程 组 ”队列 。 现 在 ， 尼 已经 在 通过 execve( ) 升 级 为 进程 ， 放 弃 了 对 父 进程 
用 户 空 间 的 共享 , 所 以 就 要 通过 de thread( ) 从 这 个 线程 组 中 脱离 出 来 。 这 个 函数 的 代码 在 fs/exec.c 中 : 





[Sys execve( ) > do execve( ) > search binary handler( ) > load_aout_binary( ) > flush_old_exec( )> 
de. thread( )] 


502 /* 

503 * An execve( ) will automatically "de-thread" the process. 
504 * Note: we don't have to hold the tasklist lock to test 
505 * whether we migth need to do this. If we're not part of 
506 * a thread group, there is no way we can become one 

507 * dynamically. And if we are, we only need to protect the 
508 * unlink - even if we race with the last other thread exit, 
509 * at worst the list del init( ) might end up being a no-op. 
510 */ 

511 static inline void de thread(struct task struct *tsk) 

512 | 

513 if (!list empty(&tsk-^thread group)) | 

514 write lock irq(&tasklist lock); 

515 list del init(&tsk-^thread group); 

516 write unlock irq(&tasklist lock); 

517 } 

518 

519 /* Minor oddity: this might stay the same. */ 

520 tsk->tgid = tsk-»pid; 

52] d 


前 面 说 过 ， 进 程 的 信号 处 理 表 就 好 像 是 个 中 断 向 量 表 。 但 是 ， 这 里 还 有 个 重要 的 不 同 ， 就 是 中 断 
喇 晶 表 中 的 表 上 项 贤 么 指 由 -个 服务 保 序 ， 柴 么 就 没有 ; 而 信号 处 理 表 中 则 还 可 以 有 对 各 种 信号 遍 设 的 
(default》 响 应 ， 并 不 ，: 定 非 要 指向 一 个 服务 程序 。 当 把 信和 号 处 理 表 从 父 进程 复制 过 来 时 ， 其 中 他 个 
丸 项 的 值 有 三 种 可 能 ， -种 可 能 是 SIG IGN. KRAMER: 第 二 种 是 SIG_DFL， 表 示 采 取 预 设 的 响应 
方式 (例如 收 到 SIGQUIT 就 exit( )); 第 三 种 就 是 指向 个 用 户 空间 的 了 了 程序。 可是， 现在 整个 用 户 空 
问 部 已 经 放弃 了 ， 怎 么 还 能 让 信号 处 理 表 的 表 项 指向 用 户 空间 的 子 程序 昵 ?所 以 还 得 愉 查 -一遍 ， 将 指 
门 服务 程序 的 表 项 改 成 SIG_DFL。 这 是 由 flush_signal_handler( ) 完 成 的 ， 代 码 在 kernel/signal.c '|': 


[sys execve( ) > do execve( ) > search binary, handler( ) > load, aout, binary( ) > 
flush old exec( )> flush signal, handlers( )] 


- 323 . 


127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 


Linux 内 核 源 代码 情景 分 析 (上 册 ) 


/* 
* Flush all handlers for a task. 
*/ 


void 
flush signal handlers (struct task struct *t) 
{ 
int i; 
struct k sigaction *ka = &t-^sig-^action[0]; 
for (i = NSIG $ i != 0 ; 1-1 
if (ka->sa. sa handler != SIG TGN) 
ka-»sa.sa handler = SIG DHT; 
ka-sa. sa flags = 0; 
sigemptyset (&ka->sa. sa mask); 
katt; 


} 


最 后 ， 是 对 原 有 已 打开 文件 的 处 理 ， 这 是 由 flush_old_files( ) 完 成 的 。 进 程 的 task. struct 结构 中 有 
个 指向 一 个 file. struct 结构 的 指针 “files” 所 指向 的 数据 结构 中 保存 着 已 打 井 文件 的 信 以 。 在 file struct 
结构 中 有 个 位 图 close_on_exec， 里 面 存储 着 表示 哪些 文件 在 执行 一 个 新 日 标 程序 时 应 予 关闭 的 信息 。 
而 flush. old files( ) 要 做 的 就 是 根据 这 个 位 图 的 指示 将 这 些 文件 关闭 ， 并 且 将 此 位 图 清 成 件 0。 其 代码 
在 exec.c 中 : 


[sys_execve( ) > do_execve( ) > search_binary_handler( ) > load_aout_binary( ) > 
flush old exec( )» flush old files( )] 


469 
470 
AT1 
412 
413 
474 
475 
476 
477 
478 
479 
480 
481 
482 
483 
484 
485 
486 
487 
488 


/* 
* These functions flushes out all traces of the currently running executable 
* so that a new one can be started 


*/ 


static inline void flush old files (struct files_struct * files) 


{ 
long j = -1; 


write lock(&files-^file lock); 
tor God 
unsigned long set, i; 


jt 

i = j * __NFDBITS; 

if (i >= files->max_fds || i >= files-^max fdset) 
break; 

set = files-?close on exec-?fds bits[;j]; 

if (set) 
continue; 
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489 files->close on exec-^fds bits[j] = 0; 
490 write_unlock (&files—>filc_lock) ; 
49] for ( ; set ; i++, set >>= D 4 
492 if (set & 1) { 

493 sys_close(i); 

494 } 

495 } 

496 write lock (&files->file lock); 
497 

498 } 

499 write_unlock (&files->file lock); 

500 } 


一 般 来 说 ， 进 程 的 开头 二 个 文件 ， 即 fd 为 0、1 和 2 (或 stdin, stdout 以 及 stder) 的 已 打开 文件 
契 不 关闭 的 ， 其 他 的 己 打 开 文 件 则 都 应 关闭 ， 但 起 也 可 以 通过 ioctl( ) 系 统 调用 来 加 以 改变 。 

从 flush_old_exec( )i& ||) load_aout_binary( ) 中 时 ， 当 前 进程 已 经 完成 了 与 过 去 告别 ,准备 迎接 新 
的 使 命 了 。 我 们 继续 沿 着 binfmt_aout.c 往 下 看 (但 是 跳 过 针对 sparc 处 理 器 的 条 件 编译 ); 


[sys_execve( ) > do execve( ) > search_binary_handler( ) > load_aout_binary( }] 


287 /* OK, This is the point of no return */ 

288 #if !defined( spare ) 

289 set personality (PER LINUX); 

290 Helse 

291 set personal ity (PER SUNOS) ; 

292 Hif !defined(__ spare v9 ) 

293 memcpy (&current-^thread.core exec, &ex, sizeof (struct exec)); 
294 Rendif 

295 &endif 

296 

297 current—>mm->end_code = ex.a text + 

298 (current -^mm-»start code = N TXTADDR(ex)); 
299 current~>mm->end_data = ex.a data + 

300 (current—>mm->start data = N DATADDR(ex)); 
301 current—>mm->brk ~ ex.a bss + 

302 (current->mm—>start_brk = N BSSADDR(ex)) ; 
303 

304 current-?mm->rss = 0; 

305 current—>mm >mmap = NULL; 

306 compute creds (bprm) ; 

307 curtenht->flags &= PF FORKNOEXEC: 


KEERA] mm, struct. RRA- ETA, ARE EAn AUT 
RS BE S ELE R. HERIR text, data 以 及 bss =E}, mm, struct 结构 中 为 每 个 段 都 设 
BET start 和 end 两 个 指针 。 每 段 的 起 始 地 址 定义 士 includelinux/a.out.h: 
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108 /* Address of text segment in memory after it is loaded. */ 
109 #if !defined (N TXTADDR) 

110 — &define N TXTADDR(x) (N MAGIC(x) == QMAGIC ? PAGE SIZE : 0) 
ili #endif 


14]  #define N SEGMENT ROUND(x) (((x) + SEGMENT SIZE - 1) & ~ (SEGMENT SIZE - 1)) 
142 

143 . #define N TXTENDADDR(x) (N TXTADDR(x) * G). a text) 

144 

145 . &ifndef N DATADDR 

146 tdefine N DATADDR(x) \ 


147 (N_MAGIC (x) ==OMAGIC? ( N TXTENDADDR(x)) \ 
148 : ( N SEGMENT. ROUND (_N_TXTENDADDR (x) ))) 
149 . #endif 

150 


151 /* Address of bss segment in memory after it is loaded. */ 
152 Hif !defined (N BSSADDR) 

153 Sdefine N BSSADDR(x) (N_DATADDR(x) + (x).a data) 

154 BSendif 


可 见 ， 装 入 内 存 以 后 的 程序 映 和 象 从 正文 段 〈 代 码 段 ) 开始 ， 其 起 始 地 址 为 0 或 PAGE_SIZE， 取 次 
于 具体 的 格式 。 正 文 段 上 面 是 数据 段 ， 然 后 是 bss 段 ， 那 就 是 不 加 初始 化 的 数据 段 。 再 往 上 就 是 动态 
分 配 的 内 存 “ 堆 ”以 及 用 户 空间 的 堆栈 了 。 

然后 ， 通 过 compute_creds( ) 确 定 进程 在 开始 执行 新 的 且 标 代码 以 后 所 共有 的 权限 ， 这 是 根据 bprm 
中 的 内 容 和 当前 的 权限 确定 的 。 其 代 但 在 exec.c 中 ， 读 者 可 自行 阅读 .。 

接 下 来 ， 就 取决 于 特殊 aout 格式 可 执行 代码 的 特性 了 (binfmt_aout.c ): 


[sys execve( ) > do execve( ) > search_binary_handler( ) > load_aout_binary( )] 


308 8ifdef | sparc — 


309 if (N MAGIC(ex) == NMAGIC) { 

321 #endif 

322 

323 if (N_MAGIC(ex) == OMAGIC) { 

324 unsigned long text_addr, map_size; 
325 loff t pos; 

326 

327 text addr = N TXTADDR (ex) ; 

328 

329 tif defined( alpha ) || defined(__sparc__) 
330 pos = fd offset; 

331 map size = ex.a text*ex.a data + PAGE SIZE - 1; 
332 #else 

333 pos = 32; 

334 map size = ex.a_texttex.a_data; 

335 #endif 
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336 

337 error = do brk(text addr & PAGE MASK, map size); 

338 if (error !- (text addr & PAGE MASK)) | 

339 send sig(SIGKILL, current, 0); 

340 return error; 

341 } 

342 : 

343 error ~ bprm->file->f op->read(bprm->file, (char *)text addr, 
344 ex.a texttex.a data, &pos) ; 

345 if (error < 0) { 

346 send sig(SIGKTLL, current, 0); 

347 return error; 

348 } 

349 

300 flush icache range(text addr, text addrtex.a_texttex. a data); 
351 | else { 


前 面 讲 过 ，a.out 格 式 日 慰 代 码 中 的 magic number 表 示 着 代码 的 特性 ， 或 者 说 类 型 。 当 magic number 
为 OMAGIC 上 村， 表示 该 文件 中 的 可 执行 代码 并 非 “ 纯 代码 ” 对 于 这 样 的 代码 ， 先 通过 do_brk( ) 为 正文 
段 和 数据 段 合 在 一 起 分 配 空间 ， 然 后 就 把 这 两 部 分 从 文件 中 读 进来 。 丙 数 do_brk( ) 我 们 已 经 在 第 2 章 小 
介绍 过 ， 面 从 文件 读 入 则 在 “文件 系统 ”和 “ 块 设备 驱动 ”两 章 中 有 详细 人 投 述 ， 读 省 可 以 参阅 ， 这 时 
就 不 重复 了 。 不 过 要 指出 ， 读 入 代码 时 是 从 文件 中 位 移 为 32 的 地 方 开 始 ， 读 入 到 进程 用 户 空间 中 从 地 
址 0 开始 的 地 方 ， 读 入 的 总 长 度 为 ex.a_text+ex.a_data。 对 于 i386 CPUI 们 言 ，flush_icache_range( ) 为 一 空 
语句 。 人 至 丁 bss 段 ， 则 无 需 从 文件 读 入 ， 只 要 分 配 空间 就 可 以 了 ， 所 以 放 在 后 面 骨 处 理 。 对 于 OMAGIC 
类 型 的 a.out 可 执行 文件 而 言 ， 装 入 程序 的 工作 就 基本 完成 了 。 

可 是 ， 如 果 不 是 OMAGIC 类 型 呢 ? 请 接着 往 下 看 〈binfmt_aout'c ): 


[sys execve( ) > do execve( ) > search_binary_handler( ) > load aout, binary( )] 


351 | else { 

352 static unsigned long error_time, error time2: 

353 if ((ex.a text & Oxfff |! ex.a data & Oxfff) && 

354 (N MAGIC(ex) !- NMAGIC) && (jiffies-error time2) > 5*HZ) 
355 { 

356 printk (KERN NOTICE "executable not page aligned\n”); 

357 error time2 - jiffies; 

358 } 

359 

360 if ((fd offset & "PAGE MASK) != 0 && 

361 (jiffies-error time) > 5*HZ) 

362 { 

363 printk (KERN WARNING 

364 "fd offset is not page aligned. Please convert program: %s\n”, 
365 bprm-^file-^f dentry-5d name. name); 

366 error time - jiffies; 

367 } 
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368 

369 if (!bprm->file->f op->mmap|| ((fd_offset & "PAGE MASK) != 0)) { 
370 loff_t pos = fd offset; 

371 do_brk (N_TXTADDR (ex), ex.a texttex.a data); 

372 bprm—>file->l_op->read(bprm->file, (char *)N TXTADDR (ex), 
373 ex. a_texttex.a_data, &pos); 

374 flush icache range((unsigned long) N_TXTADDR (ex), 

375 (unsigned long) N TXTADDR(ex) + 

376 ex.a_texttex.a data); 

377 goto beyond if; 

378 } 

379 

380 down (&current—>mm->mmap_sem) ; 

381 error = do mmap(bprm-^file, N TXTADDR(ex), ex.a text, 

382 PROT READ : PROT EXEC, 

383 MAP FIXED : MAP PRIVATE | MAP DENYWRITE | MAP EXECUTABLE, 
384 fd offset); 

385 up(&current-^mm-^mmap sem); 

386 

381 if (error !2 N TXTADDR(ex)) ( 

388 send sig(SIGKILL, current, 0); 

389 return error; 

390 } 

391 

392 down(&current >mm->mmap sem); 

393 error = do mmap(bprm-^file, N DATADDR(ex), ex.a data, 

394 PROT READ : PROT WRITE | PROT EXEC, 

395 MAP FIXED MAP PRIVATE | MAP DENYWRITE | MAP. EXECUTABLE, 
396 fd offset * ex.a text); 

397 up(&current-?mm-»mmap sem); 

398 if (error != N DATADDR(ex)) { 

399 send sig(SIGKILL, current, 0); 

400 return error; 

401 j 

402 } 


企 a.out 格 式 的 可 执行 文件 中 ， 除 OMAGIC 以 外 其 他 二 种 均 为 纯 代 但 ， 也 就 是 所 谓 的 “可 重 入 ” 代 
码 。 此 类 代码 中 ， 不 但 其 止 文 段 的 执行 代码 在 运行 时 本 会 改变 ， 其 数据 段 的 内 容 也 不 会 在 过 行 时 改变 。 
凡是 要 企 运 行 过 程 中 改 灾 内 容 的 东西 都 在 堆栈 中 《局 部 变量 )， 此 不 然 就 在 动态 分 策 的 缓冲 区 。 所 以 ， 
内 核 干脆 将 可 执行 文件 映射 到 了 进程 的 朋 户 空间 中 ， 这 样 连 通常 swap 所 需 的 由 上 空间 也 省 去 了 。 在 这 
二 种 类 型 的 可 执行 文件 时， 上 除 NMGIC 以 外 玫 要 求 正 文 段 及 数据 段 的 长 度 与 页 面 大 小 对 齐 。 如 发 现 没有 
对 齐 就 要 通过 printk( ) 发 出 警告 信息 。 但 是 ， 发 出 警告 信息 太 频 繁 也 不 好 ， 所 以 不 设置 了 一 个 项 态 变量 
error_time2， 使 警告 信息 之 间 的 间隔 不 小 Ses. FE OK ARERR T RES CAT AR AE de Dmmap. 
就 是 将 一 个 已 打开 文件 映射 到 虚 存 空间 的 操作 ， 以 及 正文 段 及 数据 段 的 长 度 是 否 与 页 而 大 小 对 齐 。 如 
果 个 满足 映射 的 条 件 ， 就 分 卫 空 间 并 且 将 和 下文 段 和 数据 段 一 起 读 入 至 进程 的 几 户 空间 ， 这 次 起 从 文件 
路 位 移 为 fd_offset, BIN_TXTOFF(ex) 的 地 方 开始 , 读 入 到 山 文件 的 头 部 所 指定 的 地 址 N_TXTADDR(ex)， 
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长 度 为 两 段 的 总 和 。 如 果 满 足 映射 的 条 件 ， 敢 就 更 好 了 ， 那 就 通过 do_mmap( ) 分 别 将 文件 中 的 止 文 段 
和 数据 段 映射 到 进程 的 用 户 空间 中 , 映射 的 地 址 则 与 装 入 的 地 址 “ 致 。 调 用 mmap( ) 之 前 无 需 分 配 空 间 ， 
那 已 经 包含 在 mmap( ) 之 中 了 。 

至 此 ， 正 文 段 和 数据 段 都 已 经 装 入 就 结 了 ， 接 下 来 就 是 bss 段 和 堆栈 段 了 (binfmt_aout.e); 


[sys_execve( ) > do execve( ) > Search_binary_handler( ) > load_aout_binary( )] 


403 beyond if: 


404 set binfmt(&aout format): 

405 

406 set brk(current-?mm-^start brk, current—>mm->brk) : 

407 

408 retval = setup arg pages (bprm); 

409 if (retval < 0) | 

410 /* Someone check-me: is this error path enough? */ 
411 send sig(SIGKILL, current, 0); 

412 return retval; 

418 } 

414 

415 current->mm—>start slack = 

416 (unsigned long) create aout tables((char *) bprm->p, bprm); 


PR AXset_binfme( ) 的 操作 很 简单 〈fs/exec.c ): 
[sys_execve( ) > do execve( ) > search binary handler( ) > load_aout_binary( ) > set_binfmt( )] 


908 void set binfmt(struct linux binfmt *new) 


909 f 

910 struct linux binfmt *old = current->binfmt; 
911 if (new && new— module) 

912 __ MOD INC USE COUNT (new->module) ; 

913 current—>binfmt = new; 

914 if (old && old->modulc) 

915 MOD DEC USE COUNT (old->module) : 

916 | 


如 果 当 前 进程 原来 执行 的 代码 格式 与 新 的 代 乌 格式 都 不 是 山 可 安装 模块 支持 ， 则 实际 [IIS R— 
TiS), ASHE Acurrent->binfmt. 
PA XI set brk( ) A HT PUTT 4C 83 AY bss BEA) A ae qa] FE te eR A, ae le) - x db rp 


(binfmt_aout.c): 


[sys execve( ) > do execve( ) > search, binary handler( ) > load_aout_binary( ) > set_brk( )] 
78 static void set_brk (unsigned long start, unsigned long end) 


79 f 
80 start ~ ELF _PAGEALIGN (start); 
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81 end = ELF PAGEALIGN (end) ; 
82 if (end <= start) 

83 return; 

84 do brk(start, end - start); 
85 ] 


读者 在 第 2 章 中 读 过 do_brk( ) 的 代码 ， 应 该 理解 为 什么 bss 段 中 内 容 的 初始 值 为 全 0。 
接着 ， 还 要 在 用 户 空 间 的 堆栈 区 顶部 为 进程 建立 起 一 个 虚 存 区 间 ， 并 将 执行 参数 以 及 环境 变量 所 
占 的 物理 页 面 与 此 虚 存 区 癌 建 立 起 映射 。 这 是 由 setup_arg_pages( ) 完 成 的 ， 其 代码 在 exec.c 中 : 


[sys_execve( ) > do execve( ) > search, binary. handler( ) > load_aout_binary( ) > Setup_arg_pages( )] 


288 int setup arg pages (struct linux binprm *bprm) 


289 { 
290 unsigned long stack base; 
291 struct vm area struct *mpnt; 
292 int i; 
293 
294 stack base = STACK TOP - MAX ARG PAGES*PAGE SIZE; 
295 
296 bprm-?p += stack base; 
297 if (bprm-^loader) 
298 bprm-»ioader += stack base; 
299 bprm-»exec += stack base; 
300 
301 mpnt = kmem cache alloc(vm area cachep, SLAB, KERNEL); 
302 if (!mpnt) 
303 return —ENOMEM; 
304 
305 down (&current-^mm-?mmap sem); 
306 { 
307 mpnt-»vm mm = current-?mm; 
308 mpnt-»vm start = PAGE MASK & (unsigned long) bprm—p; 
309 mpnt-»vm end = STACK TOP; 
310 mpnt-?»vm page prot = PAGE COPY; 
311 mpnt-»vm flags = VM STACK FLAGS; 
312 mpnt-»vm ops = NULL; 
313 mpnt-?vm pgoff = 0; 
314 mpnt-»vm file = NULL; 
315 mpnt-»vm private data = (void *) 0; 
316 insert vm struct(current-5mm, mpnt); 
317 current->mm->total vm = 
(mpnt->vm_end - mpnt-^vm start) >> PAGE SHIFT; 
318 } 
319 
320 for (i = 0 ; i < MAX ARG PAGES ; i++) 1 
321 struct page *page = bprm-Ppage[i]; 
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322 if (page) { 

323 bprm->pageli] = NULL; 
324 current-^mm-^rss-**; 
325 put dirty page (current, page, stack, base); 
326 } 

327 stack base += PAGE SIZE; 
328 } 

329 up (&current—>mm->mmap_sem) ; 
330 

331 return 0; 

332 } 


进程 的 用 户 空间 中 地 址 最 高 处 为 堆栈 区 ， 这 里 的 常数 STACK_TOP 就 是 TASK_SIEZE， 也 就 是 3GB 
(0xC000 0000)。 堆 栈 区 的 顶部 为 一 个 数组 ， 数 组 中 的 每 一 个 元 素 都 是 … 个 页 面 。 数 组 的 大 小 为 
MAX_ARG_PAGES， 而 实际 映射 的 页 面 数 量 则 取决 于 这 些 执行 参数 和 环境 变量 的 数量 。 

然后 ， 在 这 些 抽 面 的 下 方 ， 就 是 过 程 的 用 户 空 间 堆 栈 了 。 另 一 方面 ， 大 家 知道 任何 用 户 程 序 的 入 
口 都 是 main( ), 而 main 有 两 个 参数 argc 和 argv[ ]。 其 中 参数 argv[ ] 是 字符 指针 数组 , argc 则 为 数组 的 大 小 。 
但 是 实际 上 还 有 个 隐藏 着 的 字符 指针 数组 envp[ 1 用 来 传递 坏 境 变量 ， 只 是 不 在 用 户 程序 的 “视野 ”之 
内 而 已 。 所 以 ， 用 户 空间 堆栈 中 从 -开始 就 要 设置 好 三 项 数据 ， 即 envp{ ]、argv[ ] 以 及 argc。 此 外 ， 还 
要 将 保存 着 的 “字符 串 形 式 的 ) 参数 和 环境 变量 复制 到 用 户 空间 的 顶端 。 这 都 是 由 create_aout_tables( ) 
完成 的 ， 其 代码 也 在 同一 文件 (binfmt.aout.c) 中 : 


[sys execve( ) > do_execve( ) > search_binary_handler( ) > load_aout_binary( ) 
> create_aout_tables ( )] 


187 /* 

188 * create aout tables( ) parses the env- and arg-strings in new user 
189 * memory and creates the pointer tables from them, and puts their 
190 * addresses on the "stack/, returning the new stack pointer value. 
191 */ 

192 static unsigned long * create aout tables(char * p, struct linux binprm * bprm) 
193 d 

194 char **argv, **envp: 

195 unsigned long * sp; 

196 int arge = bprm-^argc; 

197 int enve = bprm-»envc; 

198 


199 sp = (unsigned long *) 
(C (unsigned long)sizeof(char *)) & (unsigned long) p); 
200 Hifdef sparc _ 
204 Rendif 
205 #ifdef alpha _ 
217 &endif 
218 sp -= envetl; 
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219 envp 7 (char **) sp; 

220 sp -= argctl; 

221 argv = (char **) sp; 

222 if defined( i386 ) || defined( mc68000 2) :| defined(__arm_) 
223 put user((unsigned long) envp, —sp); 

224 put user((unsigned long) argv,--sp); 

2295 #endif 

226 put_user (argc, sp); 

227 current-?mm-^arg start = (unsigned long) p; 
228 while (argc-->0) { 

229 char c; 

230 , put user(p, argv++) ; 

231 do { 

232 l get user (c, p++) ; 

233 ) while (c); 

234 } 

235 put. user (NULL, argv) ; 

230 current-^»mm-^arg end = current->mm—Yenv_start = (unsigned long) p; 
237 while (envc-->0) | 

238 char c; 

239 put user(p, envp++) ; 

240 do { 

241 get user(c, p**); 

242 } while (e); 

243 } 

244 put user (NULL, envp) ; 

245 curreni-^?mm-»env end = (unsigned long) p; 
246 return sp; 

2471 } 


读者 应 该 能 看 明白 ， 这 上 是 在 堆栈 的 顶端 构筑 envp[ ]. argv[ ] 和 argc。 请 读者 注意 如 一 下 这 上 段 代 码 中 

的 228 至 234 行 ( 以 及 237 至 243 行 ) 然后 回答 -个 问题 ; 为 什么 是 get_user(c, pt 向 不 是 get. user(&c, 

ptt)? 以 前 我 们 曾经 讲 过 ，get_user( ) 是 一 段 烦 有 具 挑 战 忻 的 代 色 ， 并 建议 读者 日 行 阅读 。 坝 在 简单 地 介绍 
CB. Goa PRAL Bie S.o AEE include/asm-i386/uaccess.h 中 定义 的 一 个 宏 定 义 : 


89 /* 

90 * These are the main single-value transfer routines. They automatically 
9] * use the right size if we just have the right pointer type. 

92 * 

93 * This gets kind of ugly. We want to return two values in "get user( )” 
94 * and yet we don t want to do any pointers, because that is too much 

95 * of a performance impact. Thus we have a few rather ugly macros here, 
96 * and hide all the uglyness from the user. 

97 * 

98 * The “xxx” versions of the user access functions are versions that 
99 * do not verify the address space, that must have been done previously 
100 * with a separate "access ok( )" call (this is used when we do multiple 
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* accesses to the same area of user memory). 


*/ 


extern void | get user 1 (void): 
extern void | get user 2(void); 


extern void | get user 4(void); 





#define _ get user x(sizo,ret,x,ptr) V 

asm _ volatile ("call | get user " #size \ 
:"-a" (ret), sd" (x) \ 
0° (ptr)) 


/* Careful: we have to cast the result to the type of the pointer 
for sign reasons */ 





#define get user (x, ptr) \ 

({ int ret gu, val gu; \ 
switch(sizeof (*(ptr))) { \ 
case 1: | get user x(l, ret gu, val gu,ptr); break; \ 
case 2: __get_user x(2, ret gu, val gu,ptr); break; \ 
case 4; get user x(4, ret gu, val gu,ptr); break; \ 
default: | get user x(X, ret gu, val gu,ptr); break; \ 
} \ 
(x) = ( _typeof__(#(ptr)))__ val gu; \ 

ret gu; \ 
}) 


函数 的 代码 都 在 arch/i386/lib/getusr.S ‘+, LA get user. 1()29 15]: 


24 
25 
26 
2T 
28 
29 
30 
3l 
32 
33 
34 
35 
36 


addr limit = 12 


. text 

.align 4 

.globl | get user ! 

get user 1: 

mov] “esp, %edx 
andl $0xfff£f0e000, %edx 
cmpl addr limit (%edx), %eax 
jae bad_get_user 

1: movzbl (%eax), %edx 
xorl %eax, Weax 
ret 


先 看 一 下 122 行 ， 它 回答 了 为 什么 引用 时 的 第 一 个 参数 是 c 出 不 是 &c 的 问题 。 其 次 ， 经 过 gcc 的 
预 处 理 以 后 ，__get_user_x( OMAT — get user 1(), |. get_user_2( ) 或 __get_user_4( )， 分 别 用 丁 从 
用 户 空间 读 取 一 个 字 节 、 一 个 短 整 数 或 “个 长 整数 。 宏 操作 get user 根据 第 2 个 参数 的 类 型 确定 日 慰 
的 大 小 出 分 别 调用 __get_user_1( )，__get_user_2( ) 或 __get_user_4( )。 调 用 时 日 标 地 址 (ptr). 在 寄存 器 
EAX 中 ;而 返回 时 EAX 中 为 返回 的 函数 值 《出错 代码 )，EDX 中 为 从 用 户 空间 读 过 来 的 数值 。 这 几 个 
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NL S IL ZI 


64 bad get user: 


65 xorl %edx, %edx 
66 movl $-14, %eax 
67 ret 

68 


XX HAYS 30 和 31 行将 当前 进程 的 系统 空间 堆栈 指针 与 SK. DUA RIS, Ama 
前 进程 的 task. struct 结构 指针 。 在 task struct 结构 中 位 移 为 12 处 为 当前 进程 用 户 空 间 地 址 的 上 限 ， 所 
以 作为 参数 传 过 来 的 地 址 不 得 商 才 这 个 上 限 。 这 也 说 明 ， 对 task struct 结构 的 定义 《开头 儿 个 成 分 ) 
是 不 能 随意 更 改 的 。 如 果 地 址 没有 趋 出 范围 束 从 用 户 空间 把 其 内 容 读 入 寄存 器 DX， 并 将 EAX 清 0 作 
为 返回 的 函数 倩 。 

另 一 个 宏 操作 put_user( ) 与 此 相似 ， 只 是 方向 相反 。 

当 CPU 从 create_aout_tables( ) 返 问 到 do_load_aout_binary( HF, HERR Tim AI argv[ ] 和 arge 部 已 经 
准备 好 。 我 们 再 继续 往 下 看 (binfmt_aout.c): 


[sys execve( ) > do execve( ) > search binary handler( ) > load_aout_binary( )] 


417 &ifdef alpha . 


418 regs-?gp = ex.a gpvalue; 

419 Bendif 

420 start thread(regs, ex.a entry, current->mm->start_ stack); 
421 if (current->ptrace & PT PTRACED) 

422 send sig(SIGTRAP, current, 0); 

423 return 0; 

424 } 


xx URBI PE oT SSEPERIERTE FP. JE SL AE statt thread( ) XX JE T E RES, EXT 


include/asm-i386/process.h "P: 


408 Hdeline start thread(regs, new eip, new esp) do { \ 
409 . asm  ("movl %0, %%fs ; movl %0, %%gs”: :"r” (0); \ 
410 sct fs(USER DS); \ 
411 regs->xds = . USER DS; \ 
412 regs—->xes = USER DS; \ 
413 regs->xss = USER DS; \ 
414 regs >xcs ^. USER CS; \ 
415 regs->eip = new eip; \ 
416 regs-»esp = new esp; \ 


ALT } while (0) 


读者 对 这 里 的 regs FHF] ZORA, "TRI UR A E 23 BU ETE R E" TE HER HP T PI EE AR 
当 进 程 从 系统 调用 返回 时 ， 这 些 数 值 就 会 被 “恢复 ”到 CPU 的 各 个 罕 存 器 中 。 所 以 ， 那 时 候 的 堆栈 指 
针 将 是 current->mm->start_stack; 而 返回 地 址 ， 了 世 就 是 EIP 的 内 容 ， 则 将 是 ex.a_entry。 显 然 ， 这 正 是 
BeAr BE KY. 
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全 此 ,可 执行 代码 的 装 入 和 投 运 已 经 完成 。 而 do_execve( ) 在 调用 了 search_binary_handler( ) 以 后 也 
就 结束 了 。 当 CPU 从 系统 调用 返回 到 用 户 空间 时 ， 就 会 从 由 ex.a_entry 俏 定 的 地 址 开始 执行 ， 


442. 文字 形式 可 执行 文件 的 执行 


前 向 介绍 了 a.out 格式 可 执行 文件 的 装 入 和 投 运 过 程 ， 我 们 把 这 作为 二 进 制 串 执行 文件 的 代表 。 现 
在 ， 冉 来 简要 地 看 一 下 字符 形式 的 可 执行 文件 〈 为 shell 过 程 或 perl 文件 ) 的 执行 。 有 关 的 代码 都 在 
binfmt_script.c 中 。 由 于 已 经 比较 详细 地 阅读 了 二 进 制 可 执行 文件 的 处 理 ， 读 者 在 阅读 下面 的 代 但 时 应 
该 比较 轻松 了 ， 所 以 我 们 只 作 一 些 简 要 的 提示 Cbinfmt_script.c) : 


95 struct linux binfmt script format = | 
96 NULL, THIS MODULE, load script, NULL, NULL, 0 
97 }; 


以 朋 我 们 提 到 过 ，Script SORA TFA PST ETE A "S1". ERG ERFT, ül/bin/sh, 
lust/bin/perl 等 等 ， 后 面 还 可 以 有 参数 。 但 是 ， 第 ， 行 的 长 度 不 得 长 于 127 个 字符 。 我 们 来 看 Script X 
件 的 装载 ， 这 是 出 load script( ) 完成 的 〈binfmt_script.c ): 


[sys execve( ) > do execve( ) > search_binary_handler( ) > load_script( )] 


17 static int load_script (struct linux binprm *bprm, struct pt regs *regs) 
l8 4 


19 char *cp, *i name, *i arg; 

20 struct Tile *file; 

2] char interp[BINPRM BUF SIZE]; 

22 int retval; 

23 

24 if ((bprm->buf [0] !=°#) |: (bprm->buf[1] {= '') :| (bprm->sh_bang)) 
25 return —ENOEXEC: 

26 /* 

27 * This section does the #! interpretation. 
28 * Sorta complicated, but hopefully it will work. TYT 
29 */ 

30 

31 bprm-?sh bang-**; 

32 allow write access (bprm— file); 

33 fput (bprm-^file); 

34 bprm-»file = NULL; 

35 

36 bprm-2buf[BINPRM BUF STZE - 1] =° \Q’: 

37 if ((cp = strchr(bprm—>buf, 'Nn')) == NULL) 
38 cp = bprin->buf+BINPRM BUF SIZE-1; 

39 *cp = | \0'; 

40 while (cp > bprm->buf) { 

4t cp 

42 if (Gcp ==? ) | (rep == ' NU) 
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43 *cp = NO ; 

44 else 

45 break; 

46 } 

47 for (cp = bprm-»buf*2; (rep == ' °) || Gep -< °\t); cept; 
48 if Okcp == ' \0’) 

49 return -ENOEXEC; /* No interpreter name found */ 
50 1 name = cp; 

5l i arg = 0; 

52 for ( ; *cp && (kcp !=" ') && (Rep f= MD; cepli) 
53 /* nothing */ ; 

54 while ((kep == ° ') |' (ep ==’ VU) 

55 *cpt* -° \0 ; 

56 if (*cp) 

bf i arg = cp; 

58 strcpy (interp, i name); 


BA T ORE RLS IER TRA PAR, Da Ee DC TORR AREAS A, 而 script LIFRE MR T 
解释 程序 的 这 行 参 数 。 虽 然 script 文件 本 身 并 不 是 二 进 制 格式 的 可 执行 文件 ,解释 程序 的 映 象 却 趾 个 
二 进 制 的 可 执行 文件 。 还 是 在 binfmt_script.c 文件 中 往 下 看 : 


[sys execve( ) > do execve( ) > search_binary_handler( ) > load, script( )] 


59 /* 

60 * OK, we've parsed out the interpreter name and 

61 * (optional) argument. 

62 * Splice in (1) the interpreter s name for argv[0] 

63 * (2) (optional) argument. to interpreter 

64 * (3) filename of shell script (replace argvl0]) 
65 * 

66 * This is done in reverse order, because of how the 
67 * user environment and arguments are stored. 

68 */ 

69 remove arg zero (bprm) ; 

70 retval = copy strings kernel (1, &bprm->filename, bprm) ; 
71 if (retval < 0) return retval; 

72 bprm-»argct-t; 

73 if (i arg) { 

14 retval > copy strings kerncl(l, &i arg, bprm); 

15 if (retval < 0) return retval; 

16 bprm-»argc**; 

了 7 } 

78 retval = copy strings kernel (1, &i name, bprm) ; 

79 if (retval) return retval; 

80 bprm->argctt; 

81 fk 

82 * OK, now restart the process with the interpreter' s dentry. 
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83 */ 

84 file = open exec (interp); 

85 if (IS ERR(file)) 

86 return PTR_ERR (file); 

87 

88 bprm->file = file; 

89 retval = prepare binprm(bprm) ; 
90 if (retval < 0) 

9] return retval; 

92 return search binary handler (bprm, regs) ; 
93 } 


HY WL, Script 文件 的 使 用 在 装 入 运行 的 过 程 中 引入 了 递归 性 ，load_script( ) 最 后 又 调用 
search_binary_handler( )。 不 管 递归 有 多 深 ， 最 终 执 行 的 AED 进 制 可 执行 文件 ， 例 如 /bin/sh、 
lusr/bin/perl 等 解释 程序 。 在 递归 的 过 程 中 ， 逐 层 的 可 执行 文件 路 径 名 形成 一 个 参数 堆 线 ， 传 递 给 最 终 
的 解释 程序 。 


45 系统 调用 exit( ) 与 wait4( ) 

系统 调用 exit( ) 与 wait4( ) 的 代码 基本 上 都 在 kerneVexit.c 中 ， 下 和 我 们 人 在 引用 代码 时 凡 不 特别 说 明 
出 处 的 均 来 自 这 个 文件 。 

EKE exit( ) 的 实现 (exit.c): 


482 asmlinkage long sys_exit (int error code) 


483 { 
484 do exit((error code&Oxff)««8); 
485 |] 


显然 ， 其 主体 为 do_exit( )。 先 看 它 的 前 半 部 : 
[sys_exit( ) > do_exit( )] 


421 NORET_TYPE void do exit (long code) 


422 { 

A23 struct task struct *tsk - current; 

424 

425 if (in interrupt( )) 

426 panic(“Aiee, killing interrupt handler!”) ; 
427 if (!tsk->pid) 

428 panic(“Attempted to kill the idle task!”); 
429 if (tsk->pid == 1) 

130 panic (“Attempted to kill init!^); 

431 tsk-^flags |= PF EXITING; 

432 del timer sync(&tsk-^real timer); 

433 
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首先 ,在 函数 的 类 型 void 前 面 偿 有 个 说 明 NORET_TYPE.。 在 include/linux/kenel.h 中 NORET_TYPE 
定义 为 “/* 和 ”所 以 对 编译 毫 无 影响 ， 但 起 到 了 提醒 读者 的 作用 。CPU 在 进入 do_exit( ) 以 后 ， 当 前 进 
程 就 在 中 途 寿 终 正 寝 ， 不 会 从 这 个 吸 数 返 同 。 所 谓 不 会 从 这 个 函数 返回 到 底 是 怎么 回 事 ， 义 是 什么 原 
因 ， 读 者 在 读 了 下 面 的 代码 以 后 就 明白 了 。 这 里 只 指出 ， 既 然 CPU 不 会 从 do exit UKE, Bathe 
从 sys_exit( ) 中 返 问 ， 从 而 也 就 不 会 从 系统 调用 exit( ) 返 回 。 也 只 有 这 样 ， 才 能 达到 “exit"， 即 从 系统 
退出 的 日 的 。 男 一 方面 ， 所 谓 exit， 只 有 进程 〈 或 线程 ) 才 谈 得 [:。 中 断 服 务 程序 根本 就 不 应 该 调用 
do exit( )， 不 管 是 直接 还 是 问 接 调用 。 所 以 ， 这 里 首先 通过 in_interrupt( ) 对 此 加 以 检查 ， 如 发 现 这 是 
在 某 个 中 断 服务 程序 中 油 用 的 ， 那 就 定 是 出 了 问题 。 

那么 ， 怎 么 知道 是 否 在 中 断 服务 程序 中 呢 ? 让 我 们 来 在 丰 在 include/asm-i386/hardirq.h 中 定义 的 


in interrupt( ): 


20 /* 

2] * Áre we in an interrupt context? Either doing bottom half 
22 * or hardware interrupt processing? 

23 */ 

24 fdefine in interrupt( ) ({ int | cpu = smp processor id( ); \ 
25 (local irq count( cpu) + local bh count( cpu) != 0); }) 


在 单 CPU 的 系统 中 ，__cpu 一 定 是 0。 人 在 第 3 章 中 讲 到 过 函数 handle IRQ event( )， 在 其 入 口 处 
和 出 口 处 各 有 一 个 蝎 数 调用 irq_enter( ) 和 irq_exit( )， 就 分 别 递增 和 递减 计数 此 local_irq_countL__cpu]， 
所 以 ， 只 要 这 个 计数 器 为 非 0， 就 说 明 CPU 在 handle_IRQ_event( ) 中 。 类 似 地 ， 只 要 计数 器 
local_bh_count[__cpu] 为 非 0， 就 说 明 CPU 正在 执行 某 个 bh PRR, LER IRS RE. RZ, 
只 要 不 是 在 中 断 服务 的 上 下 文中 ， 那 就 eR SH CAR NE pact y. 但 是 ,0 号 进程 和 
| 号 进程 ， 也 就 是 “空转 ”(idle) 进程 和 “初始 化 ”(inib 进 程 ， 是 不 允许 退出 的 ， 所 以 接着 要 对 当前 进 
程 的 pid 加 以 检查 。 

进程 任 决 定 退 出 之 前 可 能 已 经 设置 了 实时 定时 喘 ， 也 就 是 将 其 task_struct 结构 中 的 成 员 real, timer 
挂 入 了 内 核 中 的 定时 器 队列 。 现 在 进程 即将 退出 系统 ， 一 来 是 这 个 定时 器 已 经 没有 了 存在 的 必要 ，“ 
来 进程 的 task. struct 结构 行将 撤销 ， 作 为 其 成 员 的 real timer UK EZET, PHERI, 当然 要 先 
将 它 从 队列 中 脱岗 。 所 以 ， 要 通过 del_timer_sync( ) 将 当前 进程 从 定时 器 队列 中 脱离 出 来 。 

继续 往 下 看 (exit.c): 


[sys exit( ) > do exit( )] 


434 fake volatile: 
435 &ifdef CONFIG BSD PROCESS ACCT 


436 acet_process (code) ; 
437 #endif 

438 __exit_mm(tsk) ; 
439 

440 lock kernel ( ); 

441 sem exit( ); 

442 exit files(tsk); 
443 . exit fs(tsk): 
444 exit sighand(tsk); 
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445 exit thread( ); 

446 

447 if (current->leader) 

448 disassociate ctty(l): 

449 

450 put exec domain(tsk->exec domain); 

45] if (tsk—binfmt && tsk-^binfmt-»module) 

452 .MOD DEC USE COUNT (tsk->binfmt->module) ; 

453 

454 tsk-»exit code = code; 

455 exit notify( ); 

456 schedule( ); 

457 BUG( ) ; 

458 /* 

459 * [n order to get rid of the “volatile function does return” message 
460 * [ did this little loop that confuses gcc to think do exit really 
461 * is volatile. In fact it's schedule( ) that is volatile in some 
462 * circumstances: when current-?state = ZOMBIE, schedule( ) never 
463 * returns. 

464 * 

465 * In fact the natural way to do all this is to have the label and the 
466 * goto right after each other, but I put the fake volatile label at 
467 * the start of the function just in case something /really/ bad 

468 * happens, and the schedule rcturns. This way we can try again. l'm 
469 * not paranoid: it's just that everybody is out to get me. 

470 */ 

47l goto fake volatile; 

472 ] 


可 想 和 而 知 ， 进 程 在 结束 生命 退出 系统 之 前 要 释放 其 所 有 的 资源 。 我 们 在 前 一 节 的 do. fork ) 中 看 到 
从 父 进程 “继承 ”的 资源 有 存储 空间 、 忆 打 井 文件 、 工 作 月 录 、 信 和 号 处 理 表 等 等 。 相 旋 地 ,这 里 就 有 
__exit_mm( ), __exit_files( )、__exit_fs( ) 以 及 __exit_sighand( )。 可 是 ， 还 有 一 种 资源 是 不 “继承 ”的 ， 
所 以 企 do_fork( ) 中 不 会 看 到 ， 那 就 是 进程 在 用 户 空间 建立 和 使 用 的 “信号 量 ”(semaphore)。 这 是 一 种 
用 于 进程 加 通讯 的 资源 ， 如 果 在 调用 exit( ) 之 前 还 有 信号 量 尚 未 撤销 ， 那 就 也 要 把 它 撤 销 。 这 里 有 一 个 
简单 的 准则 ， 就 是 看 task struct 数据 结构 中 的 各 个 成 分 ， 如 果 一 个 成 分 是 个 指针 ， 在 进程 创建 时 以 及 
运行 过 程 中 要 为 其 在 内 核 中 分 配 个 数据 结构 或 缓冲 区 ， 市 且 这 个 指针 又 是 通 向 这 个 数据 结构 或 缓冲 
区 的 惟 -- 途 径 ， 那 就 一 定 炎 把 它 释放 ， 否 则 就 会 造成 内 核 的 存储 空间 “ 泄 湄 ”。 例如， 指针 sig 指向 进 
程 的 信号 处 理 表 ， 这 个 表 所 占 的 空间 是 专 为 sig 分 配 的 ， 指 针 sig 就 是 进入 这 个 表 的 惟一 途径 ， 所 以 必 
须 释放 。 而 指针 p. pptr 指向 父 进程 的 task. struct 结构 ， 吕 是 父 进 程 的 task. struct BMAP REET 
子 进程 的 p_pptr 而 分 配 的 ， 这 个 p_pptr 并 不 是 进入 其 父 进程 的 task, struct 的 惟 途径 ， 所 以 不 能 把 这 
个 数据 结构 也 释放 掉 ， 否 则 其 他 指向 这 个 结构 的 指针 就 部 “悬空 ”了 。 具 体 到 用 户 空间 信号 量 ， 当 进 
种 在 用 户 空间 创建 和 使 用 信号 量 时 ， 内 核 会 为 进程 task struct 结构 中 的 由 个 指针 semundo 和 
semsleeping 分 配 缓冲 区 (sem_undo 数据 结构 和 | sem. queue 数据 结构 ， 详 见 “ 进 程 间 遂 信 罗 。 而 且 ， 这 
两 个 指针 就 是 进入 这 些 数据 结构 的 改 一 途径 , 所 以 必须 把 它们 释放 。 函数 sem_exit( ) 的 代码 在 ipe/sem.c 
中 : 
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[sys exit( ) > do_exit( ) > sem exit( )] 


966 
967 
968 
969 
970 
971 
972 
973 
974 
975 
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977 
978 
979 
980 
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982 
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989 
990 
991 
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994 
995 
996 
997 
998 
999 
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1001 
1002 
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1004 
1005 
1006 
1007 
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/* 


* 
* 
* 
* 
* 
* 
* 
* 
* 
x 


*/ 


add semadj values to semaphores, free undo structures. 

undo structures are noi freed when semaphore arrays are destroyed 
so some of them may be out of date. 

IMPLEMENTATION NOTE; There is some confusion over whether the 

set of adjustments that needs to be done should be done in an atomic 
manner or not. That is, if we are attempting to decrement the semval 
should we queue up and wait until we can do so legally? 

The original implementation attempted to do this (queue and wait). 
The current implementation does not do so. The POSIX standard 

and SVID should be consulted to determine what behavior is mandated. 


void sem exit (void) 


{ 
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struct sem queue *q; 

struct sem undo *u, *un = NULL, **up, **unp; 
struct sem array *sma; 

int nsems, 1; 


/* Tf the current process was sleeping for a semaphore, 
* remove it from the queue. 
*/ 
if ((q = current—semsleeping)) | 
int semid = q->id; 
sma - sem lock(semid); 
current—>semsleeping - NULL; 


if (q >prev) | 
if (sma==NULL) 
BUG( ); 
remove from queue (gq >sma, q); 
} 
if (sma! -NULL) 
sem unlock (semid) ; 


for (up = &current->semundo; (u = *up); *up = u->proc_next, kfree(u)) | 


int semid = u >semid: 

if (semid == -1) 
continue; 

sma = sem lock (semid) ; 

if (sma -- NULL) 
continue; 


if (u >semid == -1) 
goto next entry; 
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1012 

1013 if (sem checkid(sma, u->semid)) 

1014 goto next entry; 

1015 

1016 /* remove u from the sma-^undo list */ 

1017 for {unp = &sma->undo: (un = *unp); unp = &un->id next) | 
1018 if (u -- un) 

1019 goto found; 

1020 } 

1021 printk (“sem exit undo list error id=%d\n”, u-»semid); 
1022 goto next entry; 

[023 found: 

1024 *unp = un-?id next; 

1025 /* perform adjustments registered in u */ 

1026 nsems = sma-?sem nsems; 

1027 for (i = 0; i < nsems; i++) { 

1028 struct sem * sem = &sma-?sem base[i]; 

1029 sem->semval += u->semadj[i]; 

1030 if (sem->semval < 0) 

1031 sem-^semval = 0; /* shouldn't happen */ 

1032 sem—>sempid = current->pid; 

1033 } 

1034 sma-^sem otime = CURRENT TIME; 

1035 /* maybe some queued-up processes were waiting for this */ 
1036 update queue (sma) ; 

1037 next entry: 

1038 sem unlock (semid) : 

1039 } 

1040 current—>semundo = NULL; 

104] } 


WR SHEE CHEK) 等 待 进入 某 个 临界 区 ， 则 其 task struct 结构 中 的 指针 semsleeping 指向 
所 在 的 队列 。 显 然 ， 现 在 不 需要 再 等 待 了 ， 所 以 把 当前 过 程 从 这 个 队列 中 脱 链 。 接 着 是 一 个 for 循环 ， 
料理 那些 正在 由 当前 过 程 所 创建 的 骨 户 空间 信和 号 量 〈《 即 临界 区 》 上 操作 的 过 程 ， 告 诉 它们 :信和 号 量 已 
经 撤销 ， 临 界 |x. 已 经 划 “ 清 场 ” 并 “关门 大 吉 ” 大 家 请 思 吧 。 建 议 读者 在 学 习 了 “进程 间 通 信 ” 的 有 
关内 容 后 再 回 过 来 自己 读 一 下 这 段 代 码 。 | 
FLA exit mm( ) 的 代码 (exit.c) : 


[sys exit( ) > do_exit( ) > exit mm( )] 


297 /* 

298 * Turn us into a lazy TLB process if we 

299 * aren t already.. 

300 */ 

301 static inline void _. exit mm(struct task struct * tsk) 
302 { 

303 struct mm struct * mm = tsk->mm; 
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304 

305 mm release( ); 

306 if (mm) { 

307 atomic_inc (&mm—>mm_count) ， 

308 if (mm !- tsk->active_mm) BUG( ); 

309 /* more a memory barrier than a real lock */ 
310 task lock (tsk); 

311 tsk-»mm = NULL; 

312 task unlock (tsk) : 

313 enter lazy tlb(mm, current, smp processor id( )); 
314 mmput (mm) ; 

315 } 

316} 


实际 的 存储 空间 释放 是 调用 mmput() 完 成 的 《 代 但 在 fork.c "FO. 我 们 已 在 前 一 节 中 读 过 它 的 代码 ， 
这 里 要 提醒 读者 的 是 这 里 对 mm_release( ) 的 调用 。 在 fork( ) 和 execve( ) 两 节 中 ， 读 省 已 经 看 到 ， 当 
do_fork( ) 时 标志 位 CLONE, VFORK 为 1 时 , 父 进程 在 睡眠 , 等 待 子 进程 在 一 个 信号 量 上 执行 一 次 up() 
操作 以 后 才能 回 到 用 户 空间 运行 ， 而 子 进程 必须 在 释放 其 用 户 存 储 空间 时 执行 这 个 操作 ， 所 以 这 里 要 
通过 mm_release( ), 在 这 个 信号 量 上 执行 一 次 up() 操 作 唤醒 睡眠 中 的 父 进程 。 其 代码 已 询 出 在 execve() 
节 中 ， 这 里 不 再 重复 。 

将 SERRE task. struct 结构 中 的 指针 mm 清 成 0， 这 个 进程 便 不 再 有 用 户 空间 了 。 

回 到 do exit( ) 的 代 人 始 中 ， 其 他 几 个 用 于 释放 资源 的 沙 数 读者 可 和 白 行 阅 读 。 对 于 i386 处 理 器 
exit_thread( ) 是 个 空隙 数 。 

接着 ， 当 前 进程 的 状态 就 改 成 了 TASK_ZOMBIE， 表 示 进 程 的 生命 已 经 结束 ， 从 此 不 再 接受 调度 。 
但 是 当前 进程 的 残 骨 仍 旧 占 用 着 最 低 限度 的 资源 ， 包 括 其 task struct 数据 结构 和 系统 空间 堆栈 所 在 的 
册 个 页 面 。 什 么 时 候 释 放 这 两 个 页 面 昵 ?当前 进程 白 己 并 不 释放 这 两 个 页 面 ， 就 像 人 们 自己 并 不 在 临 
终 前 注销 自己 的 户口 一 样 ， 侧 是 调用 exit_notify( ) 通 知 其 父 进程 ， 让 父 进 程 料理 后 事 。 

为 什么 要 这 样 安 排 ， 昕 不 是 让 当前 进程 ， 也 就 是 子 进程 自己 照料 DUE? 有 两 个 原因 。 首 先 , 在 
子 进 程 的 task struct. 数据 结构 中 还 有 不 少 有 用 的 统计 信息 ， 让 父 进程 来 料理 后 事 可 以 将 这 些 统计 信息 
并 入 父 进程 的 统计 信息 中 而 不 会 使 这 些 信息 丢失 。 其 次 ， 也 洗 更 重要 的 是 ， 系 统一 旦 进入 多 进程 状态 
以 后 ， 任 何 一 刻 都 需要 有 个 “当前 进程 ”存在 。 读 者 在 第 3 章 中 看 到 了 ， 在 中 断 服 务 程序 以 及 异常 处 
理 程序 中 都 要 用 到 当前 进程 的 系统 空间 堆栈 。 如 果 了 进程 在 系统 调度 另 一 个 进程 投入 运行 之 前 就 把 它 
的 task struct. 结构 和 系统 空间 堆栈 释放 ， 那 就 会 造成 “个 空隙 ， 如 果 恰 好 有 一 次 中 斯 或 者 异常 在 此 空 
隙 中 发 生 就 会 造成 问题 。 诚 然 ， 中 断 是 可 以 关闭 的 ， 可 是 异常 却 椒 能 通过 关中 断 来 防止 其 发 生 ， 更 何 
况 还 有 “不 可 屏蔽 中 断 ” 哩 。 所 以 ， 子 进程 的 task struct 结构 和 系统 空间 堆栈 必须 要 保存 到 为 一 个 进 
程 开始 运行 之 后 才能 释放 。 这 样 ， 让 父 进程 料理 后 事 就 是 一 个 合理 的 安排 了 。 此 外 ， 这 样 安排 也 有 利 
丁 使 程序 简化 ， 否 则 的 话 调度 程序 schedule( ) 就 得 此 多 考虑 一 些 特殊 情 况 了 。 让 我 们 米 看 看 exit.c PH 
XX exit_notify( ) 的 源 代码 : 


[sys_exit( ) > do exit( ) > exit_notify( )] 


323 /* 
324 * Send signals to all our closest relatives so that they know 
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325 * to properly mourn us.. 

326 */ 

327 static void exit notify (void) 

328 { 

329 struct task struct * p, st; 

330 

331 forget original parent (current); 


RAE, ASHER A “E” RI “FESO” Z5). d task struct 结构 中 有 个 指针 p opptr 指 
WIĘ "original parent” 也 即 生 父 ， 另 外 还 有 个 指针 p pptr 则 指向 养父 。 一 个 进程 在 创建 之 初 其 生父 和 
养父 是 一 致 的 ， 所 以 纳 个 指针 指向 同一 个 父 进程 。 但 是 ， 在 运行 中 p pptr 可 以 暂时 地 改变 。 这 种 改变 
发 生 在 一 个 进程 通过 系统 调用 ptrace( ) 来 跟踪 另 一 个 进程 的 时 候 , 这 时 候 被 跟踪 进程 的 p_pptr 指针 被 设 
时 成 指向 正在 跟踪 它 的 进程 ， 那 个 进程 就 暂时 成 了 被 跟踪 进程 的 “养父 ”。 而 被 跟踪 进程 的 p_opptr 指 
针 却 不 变 ， 仍 旧 指 同 其 生父 。 如 果 一 个 进程 在 其 子 进程 之 前 “去 世 ” 的 话 ， 就 要 把 它 的 子 进 程 托付 给 
茶 个 进程 。 托 付 给 谁 呢 ? 如 果 当 前 进程 是 个 线程 ， 那 就 托付 给 同一 线程 组 中 的 下 一 个 线程 ， 使 了 进 
程 的 p. opptr 指向 这 个 线程 。 和 否则 ， 就 只 好 托付 给 系统 中 的 init 进程 ， 所 以 这 init HERR REALE. 
BER KL, 所 谓 “original parent” 也 不 是 永远 不 变 的 , 原因 在 于 系统 中 的 进程 号 pid 以 及 用 作 task. struct 
结构 的 页 面 都 是 在 周转 使 用 的 ， 所 以 实际 上 -- 来 并 没有 保留 这 个 记录 的 意义 ， :来 技术 上 也 有 困难 。 
现在 ， 当 前 进程 要 exi( ) 了 ， 所 以 要 将 其 所 有 的 子 进程 都 送 进 “孤儿 院 ”， 时 不 然 到 它们 也 要 exit ) 的 
时 候 就 没有 父 进 程 来 料理 它们 的 后 事 了 。 这 就 是 331 行 调用 forget_original_parent( ) 的 目的 (exit.c)。 


[sys_exit( ) > do_exit( ) > exit notify( ) > forget_original_parent( )] 


147 /* 

148 * When we die, we re-parent all our children. 

149 * Try to give them to another thread in our process 
150 * group, and if no such member exists, give it to 
151 * the global child reaper process (ie “init”) 

152 */ 


153 static inline void forget original parent (s!ruct task struct * father) 
154 { 


155 struct task struct * p, *reaper; 
156 

157 read lock (&tasklist lock); 

158 

159 /* Next in our thread group */ 
160 reaper = next thread(father); 

161 if (reaper == father) 

162 reaper - child reaper; 

163 

164 for each task(p) { 

165 if (p-^p opptr == father) | 
166 /* We dont want people slaying init */ 
167 p~>exit signal = SIGCHLD; 
168 p-»self exec id++; 
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169 p->p_opptr = reaper; 

170 if (p-pdeath signal) send sig(p->pdeath_signal, p, 0); 
171 ] 

172 } 

173 read unlock(&tasklist lock); 

174 ) 


这 段 程 序 中 的 for. each. task 在 sched.h 中 定义 为 : 


824 #define for each task(p) \ 
825 for (p = &init task ; (p = p-^next task) !- &init task ; ) 


就 是 说 ， 搜 索 所 有 的 task struct 数据 结构 ， 凡 发 现 “ 生 父 ” 为 当前 进程 者 就 将 其 p_opptr 指针 改 成 
指向 child_reaper， 即 init 进程 ， 并 嘱 其 将 来 exit( ) 时 要 发 一 个 SIGCHLD 信号 给 chile_reaper， 并 根据 当 
前 进程 的 task_struct 结构 中 的 pdeath_signal 的 设置 向 其 发 ”个 信号 ， 告 知 生 父 的 “ 超 耗 ”。 

回 到 exit_notify( ) 中 ， 下 面 就 来 处 理由 指针 p_pptr 所 指向 的 “养父 ”进程 了 。 这 个 父 进程 就 好 像 是 
当前 进程 的 “法 定 监 护 人 ” 扮演 着 更 为 重要 的 角色 (exit.c): 


[sys exit( ) > do_exit( ) > exit_notifyt )] 


332 /* 

333 * Check to see if any process groups have become orphaned 
334 * as a result of our exiting, and if they have any stopped 
335 * jobs, send them a SIGHUP and then a SIGCONT. (POSIX 3. 2. 2. 2) 
336 * 

337 * Case i: Our father is in a different pgrp than we are 
338 * and we were the only connection outside, so our pgrp 

339 * is about to become orphaned. 

340 */ 

341 

342 t = current-?p pptr; 

343 

344 if ({t->perp != current—>pgrp) && 

345 (t->session == current->session) && 

346 will become orphaned pgrp(current-^pgrp, current) && 
347 has stopped jobs (current->pgrp)) | 

348 kill pg(current-^pgrp, SIGHUP, 1) ; 

349 kill pg(current-^pgrp, SIGCONT, 1) ; 

350 ) 

351 

352 /* Let father know we died 

353 * 

354 * Thread signals are configurable, but you aren't going to use 
355 * that to send signals to arbitary processes. 

356 * That stops right now. 

357 * 

358 * If the parent exec id doesn't match the exec id we saved 
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380 
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* when we started then we know the parent has changed security 


* 
* 


d 


omain. 


* If our self exec id doesn't match our parent exec id then 
we have changed execution domain as these two values started 


* 
* 
* 


*/ 


t 


he same after a fork. 


if(current-^exit signal !- SIGCHLD && 


T 


A. 
B. 


( current-?parent exec id != t-^self exec id 


current-?self exec id != current-^?parent exec id) 


&& !capable(CAP KILL)) 
current-^exit signal = SIGCHLD; 


his loop does two things: 


Make init inherit all the child processes 


Check to see if any process groups have become orphaned 


as a result of our exiting, and if they have any stopped 


jobs, send them a SIGHUP and then a SIGCONT. 


write lock irq(&tasklist lock); 

current—>state = TASK ZOMBIE: 

do notify parent(current, current—>exit signal); 
while (current->p cptr != NULL) { 


p = current~>p cptr; 
current->p_cptr = p-?p osptr; 
p-?p ysptr = NULL; 

p->ptrace = Q; 


p-?p pptr = p-?p opptr; 
D-?p osptr = p-?p pptr-?p cptr; 
if (pp osptr) 
p-?p osptr-?p yspir = p; 
p-?p pptr—p cptr = p; 
if (p->state == TASK ZOMBIE) 
do notify parent(p, p—exit signal); 
/* 
* process group orphan check 
* Case ii: Our child is in a different pgrp 
* than we are, and it was the only connection 
* outside, so the child pgrp is now orphaned. 
*/ 
if ((p->perp != current pgrp) && 


(POSIX 3.2. 2. 2) 
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407 (p->session == current->session)) { 
408 int pgrp = p-?pgrp; 

409 

410 write unlock irq(&tasklist lock); 
411 if (is orphaned pgrp(pgrp) && has stopped jobs(pgrp)) { 
412 kill pg(pgrp, SIGHUP, 1) ; 

413 kili_pg (perp, SIGCONT, 1) ; 

414 ] 

415 write lock irq(&tasklist lock); 

416 ) 

417 ) 

418 write unlock irq(&tasklist lock); 

419 ) 


代码 作者 在 程序 中 加 了 不 少 注解 ， 代 码 本 身 也 并 不 复杂 ， 所 以 我 们 基本 .上 [把 它 留 给 读者 自己 阅读 ， 
Au XT wd. 

-AHP login 到 系统 中 以 后 ， 可 能 会 启动 许多 不 同 的 进程 ， 所 有 这 些 进程 都 使 用 同一 个 控制 终端 

(或 用 来 模拟 一 个 终端 的 窗口 )。 这 些 使 用 同 一 个 控制 终端 的 进程 属于 同 - 个 session. Jesh, 用户 可 以 

EË -& shell 命令 或 执行 程序 中 启动 多 个 进程 ， 例 如 在 命令 “1s | we -1” 中 就 间 时 局 动 了 两 个 进程 ， 
这 些 进程 形成 一 个 “组 ”(session 与 组 是 两 个 不 同 的 概念 )。 每 个 session 或 进程 组 中 都 有 一 个 为 主 的 、 
最 早 创建 的 进程 ， 这 个 进程 的 pid 就 成 为 sessioon 和 进程 组 的 代号 。 如 果 当 前 进程 与 父 进程 属于 不 同 的 
session， 不 同 的 给， 同时 又 是 其 所 在 的 组 与 其 父 进程 之 间 惟 一 的 纽带 ， 那 么 一 旦 当前 进程 不 存在 以 后 ， 
这 整个 组 就 成 了 “和 孤儿 ” 在 这 样 的 情况 下 ， 按 POSIX 32.22 的 规定 要 给 这 个 进程 组 中 所 有 的 进程 都 
先 发 一 个 SIGHUP 信号， 然后 再 发 -个 SIGCONT 信和 号， 这 是 由 kill pg ) 完 成 的 。 

我 们 讲 过 ，exit_notify( ) 最 主要 的 目的 是 要 给 父 进程 发 一 个 信号 ， 让 其 知道 子 进 程 的 生命 已 经 结束 
而 来 料理 子 进程 的 后 事 ， 这 是 通过 do_notify_parent( ) 来 完成 的 。 其 代 但 在 kemel/signal.c 中 ， 程 序 很 简 
单 ， 读 者 可 白 行 阅 读 : 


[sys_exit( ) > do_exit( ) > exit, notify( ) > do_notify_parent( )] 


732 /* 

733 * Let a parent know about a status change of a child. 
734 */ 

735 

736 void do_notify_parent (struct task_struct *tsk, int sig) 
737 { 

738 struct siginfo info; 

739 int why, status; 

740 

741 info.si signo = sig; 

742 info. si_errno = 0; 

743 info. si_pid = tsk~->pid; 

744 info. si_uid = tsk->uid; 

745 

746 /* FIXME: find out whether or not this is supposed to be c*time. */ 
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747 info. si utime = tsk->times. tms utime; 
748 info. si_stime = tsk-^times. tms stime; 
; 749 
1 750 status = tsk->exit_code & Ox7f; 
: 751 why = SI KERNEL; ^ /* shouldn't happen */ 
152 switch (tsk->state) { 
i 753 case TASK_STOPPED: 
| 754 /* FIXME 一 can we deduce CLD TRAPPED or CLD CONTINUED? */ 
: 755 if (tsk->ptrace & PT PTRACED) 

756 why = CLD TRAPPED; 

157 else 

198 why = CLD STOPPED; 

759 break; 

760 

761 default: 

762 if (tsk->exit code & 0x80) 

763 why = CLD_DUMPED; 

764 else if (tsk >exit code & 0x71) 

765 why = CLD_KILLED; 

766 else { 

767 why = CLD EXITED; 

768 status = tsk—>exit_code >> 8; 

769 j 

770 break; 

771 } 

772 info.si code = why; 

773 info. si_status = status; 

774 

775 send sig info(sig, &info, tsk->p pptr); 

776 wake up parent (tsk-?p pptr); 

777} 


参数 tsk 指向 当前 进程 的 task struct 结构 ， 上 只 有 当 进 程 处 于 TASK_ZOMBIE (IFØ exit( )) 或 
TASK_STOPPED( 被 跟踪 ) 时 才 人 允许 调用 do_notify_parent( )。 从 代码 中 可 见 ， 这 里 的 所 谓 parent 是 指 当 
前 进程 的 “养父 ”而 不 是 “生父 ”， 也 就 是 由 指针 p pptr 所 指 而 不 是 p opptr 所 指 的 进程 。 在 前 面 的 
forget original parent( ) 中 已 经 把 每 个 子 进程 的 p_opptr 改 成 了 指向 child_reaper， 而 notify_parent( )'{' 4f 
是 站 p_pptr 所 指 进程 发 信号 ; 那样 ， 将 来 当 闭 些 子 进程 上 exit( ) 时 岂 不 是 要 问 一 个 已 经 不 存在 了 的 父 
进程 发 信号 吗 ? ABER, exit notify( ) 的 代码 中 随后 〈392 行 ) 就 把 了 进程 的 p_pptr 设置 成 与 p_opptr 
相同 。 

进程 之 问 都 通过 亲缘 关系 连接 在 一 起 而 形成 “关系 网 ” 所 用 的 指针 除 p_opptr f p_pptr 外 ， 还 有 : 

p_cptr， 指 向 子 进 程 ， 这 里 的 c aS “child”. p_eptr 5 p_pptr 是 相对 应 的 。 当 一 个 进程 有 多 个 子 

进程 时 ，P_cptr 指 同 其 “最 年 轻 的 ”， 也 就 是 最 近 创 建 的 那个 子 进程 。 

P_ysptr， 指 同 当 前 进程 的 “弟弟 ”， 这 里 的 y RR "younger". Mj sz "sibling". 


这 样 ， 当 前 进程 的 所 有 子 进程 者 通过 p. ysptr 和 p osptr 连接 在 起 形成 一 个 双 链 队列 。 队 列 中 每 
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一 个 进程 的 p_pptr 都 指向 当前 进程 ， 府 当前 进程 的 p_optr 则 指向 队列 中 最 后 创建 的 子 进 程 。 有 趣 的 是 ， 
子 进程 在 行事 时 只 认 其 “养父 ”而 p_opptr 所 指 的 “生父 ” 倒 似 乎 无 关 紧 要 。 当 然 ， 一 个 进程 除 身 处 
这 个 由 亲属 关系 形成 的 队列 中 之 外 ， 同 时 也 身 处 其 他 的 队列 中 ， 所 以 task struct. 结构 中 还 有 其 他 的 
task struct 指针 ， 从 而 形成 一 个 并 不 简单 的 “关系 网 ”。 进 程 是 在 创建 的 时 候 人 在 do_fork( ) 中 通过 
SET LINK 进入 这 个 关系 网 的 。SET_LINK 的 定义 在 sched.h 中 ， 


813 #define SET LINKS(p) do (^ 


814 (p)-»next task = &init task; V 

815 (p)-^prev task = init task.prev task; \ 

816 init task. prev task-^»next task = (p); ^ 

817 init task. prev task = (p); V 

818 (p)->p_ysptr = NULL; \ 

819 if (((p)—p osptr = (p)—>p_pptr->p_cptr) !- NULL) \ 
820 (p)->p_osptr->p_ysptr = p; \ 

821 (p)->p pptr->p cptr = p; ^ 

822 } while (0) 


现在 ， 是 退出 这 个 关系 网 的 时 候 了 。 当 CPU 从 do. notify. parent( ) 返 同 到 exit_notify( SPIN, Pra 
子 进 程 的 p_opptr 都 已 指向 child_reaper, 而 p_pptr 仍 指向 当前 进程 。 随 后 的 while 循环 将 子 进程 队列 中 
的 每 个 进程 都 转移 到 child_reaper 的 子 进程 队列 中 去 ， 并 使 其 p_pptr 也 指 癌 child_reaper。 同 时 ， 对 每 
个 子 进程 也 要 检查 其 所 属 的 进程 组 是 否 成 为 了 “ 抓 岛 ”。 

如 果 当 前 进程 是 一 个 session 中 的 主 进 程 (current->leader 非 0), 那 就 还 要 将 整个 session 与 其 主 控 终 
端的 联系 切断 ， 并 将 该 tty 释放 (注意 ， 进 程 的 task struct 结构 中 有 个 指针 ty 指向 其 主 控 终端 )。 函 数 
disassociate_ctty( ) 的 代码 在 drivers/char/tty_io.c 中 : 


[sys_exit( ) > do_exit( ) > exit_notify( ) > disassociate_ctty( )] 


560 /* 

561 * This function is typically called only by the session leader, when 
562 * it wants to disassociate itself from its controlling tty. 

563 * 

564 * It performs the following functions: 

565 * (1) Sends a SIGHUP and SIGCONT to the foreground process group 
566 * (2) Clears the tty from being controlling the session 

567 * (3) Clears the controlling tty for all processes in the 

568 * session group. 

569 * 

570 * The argument on_exit is set to 1 if called when a process is 

571 * exiting; it is 0 if called by the ioctl TIOCNOTTY. 

572 */ 

573 void disassociate_ctty (int on_exit) 

574 { 

575 struct tty struct *tty = current-»tty; 

576 struct task struct *p; 

577 int tty pgrp = -1; 
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578 

579 if (tty) { 

580 tty pgrp = tty->perp; 

581 if (on exit && tty—driver. type != TTY DRIVER TYPE PTY) 
582 tty_vhangup (tty) ; 

583 } else { 

584 if (current->tty old perp) { 

585 kill pg(current-^tty old pgrp, SIGHUP, on exit); 
586 kill pg(current-^tty old pgrp, SIGCONT, on exit); 
587 } 

588 return; 

589 ) 

590 if (tty pgrp > 0) { 

59] kill pg(tty pgrp, SIGHUP, on exit); 

592 if (lon exit) 

593 kill pg(tty pgrp, SIGCONT, on exit); 

594 } 

595 

596 current-^tty old pgrp = 0; 

597 tty~>session = 0; 

598 tty-^pgrp = -1; 

599 

600 read lock(&tasklist lock); 

601 for each task (p) 

602 if (p-^session == current~>session) 

603 p-^ tty = NULL; 

604 read unlock(&tasklist lock); 

605 } 

606 


那么 ， 进 程 与 主 控 终 端的 这 种 联系 最 初 是 怎样 ， 以 及 在 什么 时 候 建 立 的 呢 ? 显然 ， 在 创建 子 进程 
时 ， 将 父 进程 的 task_struct 结构 复制 给 子 进 程 的 过 程 中 把 结构 中 的 tty 指针 也 复制 了 下 来 ， 所 以 子 进程 
具有 与 父 进程 相同 的 主 控 终 端 。 但 是 子 进程 可 以 通过 ioctl( ) 系 统 调 用 来 改变 主 控 终 端 ， 也 可 以 先 将 当 
前 的 主 控 终 端 关闭 然后 再 打开 男 一 个 tty» 不 过 , 在 此 之 前 先 得 通过 setsid( ) 系 统 调用 来 建立 一 个 新 的 人 
机 交互 分 组 (session)， 并 使 得 作 此 调用 的 进程 成 为 该 session 的 主 进程 (leader)。 一 个 session 的 主 进程 
与 其 主 控 终端 断绝 关系 意味 着 整个 session 中 的 进程 都 与 之 断绝 了 关系 ， 所 以 要 给 同一 session 中 的 进 
程 发 出 信和 号。 从 此 以 后 ， 这 些 进程 就 没有 主 控 终端 ， 成 了 “后 台 进 程 ”。 

再 加 到 do exit( ) 的 代码 中 。 当 CPU 完成 了 exit_notify( )， 回 到 do_exit( ) 中 时 ， 剩 下 的 大 事 只 有 一 
件 了 ， 那 就 是 schedule( )， 即 进程 调度 。 前 面 讲 过 ，do_exit( ) 是 不 返回 的 ， 实 际 上 使 do_exit( ) 不 返回 的 
正 是 这 里 的 schedule( )。 换 言 之 ， 和 在 这 里 对 schedule( ) 的 调用 是 不 返回 的 。 当 然 ， 在 正常 条 件 下 对 
schedule( ) 的 调用 是 返回 的 ， 只 不 过 返回 的 时 机 要 延迟 到 本 进程 再 次 被 调度 而 进入 运行 的 时 候 。 函 数 
schedule( ) 按 照 一 定 的 准则 从 系统 中 挑选 一 个 最 适合 的 进程 进入 运行 。 这 个 进程 有 可 能 就 是 正在 运行 的 


行 权 ， 却 维持 其 “运行 状态 ” HU task->state 不 变 ， 等 待 下 一 次 义 在 schedule( ) 中 《由 男 一 个 进程 引起 ， 
或 者 因 中 断 进入 内 核 后 从 系统 空间 返回 用 户 空间 之 前 ?被 选中 时 青 继续 运行 , 从 而 从 schedule( ) 中 返回 。 


. 349 ， 


| Linux 内 核 源 代码 情景 分 析 “上册 ) 

所 以 , 什么 时 候 从 schedule( ) 返 回 取 决 于 什么 时 候 被 进程 调度 选中 而 得 以 继续 运行 。 可 是 ， 在 这 里 ， 当 
前 进程 的 task->state 已 经 变 成 了 TASK_ZOMBIE， 这 个 条 件 使 它 在 schedule( ) 中 永远 不 会 再 被 选中 , 所 
以 就 “ 黄 稚 -去 不 复 返 了 ”。 侧 这 里 对 schedule ) 的 调用 ， 实 际 上 《从 CPU 的 角度 看 ) 也 是 返回 的 ,只 
不 过 是 返回 到 另 一 个 进程 中 去 了 ， 只 是 从 当前 进程 的 角度 来 看 没有 返回 而 已 。 不 过 ， 至 此 为 止 ， 当 前 
进程 还 只 是 因为 不 会 被 选中 而 不 能 返回 ， 从 理论 上 说 只 是 无 限 推迟 而 已 ， 其 task_struct 结构 还 是 存在 
的 。 到 父 进程 收 介 子 进程 发 来 的 信 续 而 来 料理 后 事 ， 将 子 进程 的 task struct. 结构 释放 之 时 ， 子 进程 就 
最 终 从 系统 中 消失 了 。 在 我 们 这 个 情景 中 ， 父 进程 正在 wait4( ) 中 等 者 哩 。 


像 其 他 系统 调用 -一样 ，wait4() 在 内 核 中 的 入 口 是 sys_wait4( )， 见 exit.c 中 的 代码 : 


487 asmlinkage long sys wait4(pid t pid, unsigned int * stat addr, 
int options, struct rusage * ru) 


488 { 

489 int flag, retval; 

490 DECLARE WAITQUEUE (wait, current); 

491 struct task struct *tsk; 

492 

493 if (options & ~ (WNOHANG|WUNTRACED| | WNOTHREAD| |WCLONE| | WALL)) 
494 return -EINVAL; 

495 

496 add wait queue(&current-»wait chldexit, &wait) ; 


参数 pid 为 某 一 个 子 进 程 的 进程 号 。 
首先 ， 在 当前 进程 的 系统 空间 堆栈 中 通过 DECLARE WAITQUEUE 分 配 空间 并 建立 了 一 个 
wait_queue_t 数据 结构 。 有 关 的 宏 定 义 和 数 据 结构 都 是 存 include/linux/wait.h 中 定义 的 : 


46 struct | wait queue | 

47 unsigned int flags; 

48 Hdefine WQ FLAG EXCLUSIVE 0x01 
49 struct task struct * task; 
50 struct list head task list; 
51 &if WAITQUEUE DEBUG 

52 long magic; 

53 long | waker; 

54 fendif 

55- d 


56 typedef struct | wait queue wait queue t; 


92 struct | wait queue head | 

93 wq lock t lock; 

94 struct list head task list; 
95 Sif WAITQUEUE DEBUG 

96 long _ magic; 

97 long | creator; 

98 Bendif 


- 350 . 














人 


100 
10] 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
115 


也 就 是 说 ，sys_wait4( ) 一 关头 就 在 当前 进程 的 系统 堆栈 上 分 配 一 个 wait_queue_t 数据 结构 (名 为 
wait)， 结 构 中 的 compiler warning 为 0x1234567， 指 儿 task 指向 当前 进程 的 task_struct， 而 list, head £j 
构 task list 中 的 商人 指针 均 为 NULL。 由 于 这 个 数据 结构 建立 在 当前 进程 的 系统 空间 堆栈 中 ， 一 吕 从 
sys_wait4( ) 返 回 , 这 个 数据 结构 就 不 复 存 在 了 。 与 此 相应 ,在 进程 的 task_struct 中 有 个 wait queue head t 
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typedef struct | wait queue head wait queue head t; 


Hif WAITQUEUE DEBUG 
# define _ WAITQUEUE DEBUG INIT(name) \ 
, (long)&(name). | magic, 0 
# define — WAITQUEUE HEAD DEBUG INIT(name) \ 
, (long)&(name). magic, (long)&(name). magic 
Helse 
# define | WAITQUEUE DEBUG INIT (name) 
# define | WAITQUEUE HEAD DEBUG INIT (name) 
#endif 


define __ WATTQUEUE_INITIALIZER (name, task) V 


{ 0x0, task, { NULL, NULL } | WAITQUEUE DEBUG INIT (name) } 


#define DECLARE_WAITQUEUE (name, task) \ 


wait queue t name = . WAITQUEUE INITIALIZER (name, task) 


数据 结构 wait chldexit 用 于 这 个 日 的 。 


然后 ， 通 过 add wait queue( ) 将 这 个 数据 结构 (wait》 加 入 到 当前 进程 的 wait_chidexit 队列 中 。 这 
样 做 的 作用 在 下 面 重 温 了 do notify parent( ) 的 代码 以 后 就 会 清楚 。 接 着 ， 就 进入 了 一 个 循环 ， 这 是 一 


个 不 小 的 循 坏 Cexit.cisys wait4( ) ): 


[sys_wait4( )] 


497 
498 
499 
500 
901 
502 
503 
504 
505 
506 
507 
908 
509 
510 
511 
512 
513 


repeat: 
flag = 0; 
current-?^state = TASK INTERRUPTIBLE; 
read lock(&tasklist lock); 
tsk = current; 
do { 
struct task struct *p; 
for (p = tsk-?p cptr : p : p = p2p osptr) { 
if (pid>0) 1 
if (p->pid != pid) 
continue; 
) else if (pid) { 
if (p-^pgrp != current->pgrp) 
continue; 
) else if (pid !- -D { 
if (p-^pgrp != -pid) 
continue; 
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514 
915 
516 
517 
518 
519 
520 
521 
022 
523 
924 
525 
526 
527 
528 
029 
030 
531 
032 
033 
534 
535 
536 
537 
538 
539 
540 


541 


542 
543 
544 
545 
546 
547 
048 
049 
550 
551 
052 
253 
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} 

/* Wait for all children (clone and not) if __WALL is set; 

* otherwise, wait for clone children *only* if __WCLONE is 

* set; otherwise, wait for non-clone children *only*. (Note: 

* A "clone" child here is one that reports to its parent 

* using a signal other than SIGCHLD.) */ 

if (((p-^exit signal != STGCHLD) ^ ((options & | WCLONE) != 0)) 
&& !(options & | WALL)) 
continue; 

flag = 1; 


switch (p->state) 1 
case TASK STOPPED: 


if (!p->exit code) 
continue; 
if (! (options & WUNTRACED) && !(p->ptrace & PT PTRACED)) 
continue; 
read unlock(&tasklist lock); 
retval = ru ? getrusage(p, RUSAGE BOTH, ru) : 0; 
if (!retval && stat addr) 
retval = put user((p-»exit code << 8) | Ox7f, stat addr); 
if (!retval) { 
p-^exit code = 0; 
retval = p-?pid; 
} 


goto end wait4; 


case TASK ZOMBIF: 
current-2times. tms_cutime += 


p->times. tms utime + p->times. tms_cutime; 
current—>times. tms cstimo += 
p->times. tms stime + p-^times. tms cstime; 
read unlock(&tasklist lock); 
retval = ru ? getrusage(p, RUSAGE BOTH, ru) : 0; 
if (!retval && stat addr) 
retval = put user(p-^exit code, stat addr); 
if (retval) 
goto end wait4; 
retval - p-?pid; 
if (pp opptr !- pp pptr) | 
write lock irq(&tasklist lock); 
REMOVE LINKS (p); 
p- >p_pptr = p-?p.Oopptr; 
SET. LINKS (p) ; 
do notify parent(p, STGCHLD) ; 
write unlock irq(&tasklist lock); 
} else 
release task (p); 
goto end wait4; 


default: 
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560 continue; 

561 "E } 

562 } 

563 if (options & __WNOTHREAD) 
564 break; 

565 tsk = next thread(tsk); 
566 } while (tsk != current); 

567 read unlock(&tasklist lock); 
568 if (flag) { 

569 retval = 0; 

570 if (options & WNOHANG) 

571 goto end wait4; 

572 retval = -ERESTARTSYS; 

573 if (signal pending (current) ) 
574 goto end wait4; 

575 schedule( ); 

576 goto repeat; 

577 } 

578 retval = -ECHILD; 

579 end wait4: 

580 current-»5state = TASK RUNNING; 
581 remove_wait_queue (&current~>wait chldexit, &wait) ; 
082 return retval; 

583  ] 


这 个 出 goto 实现 的 循 坏 要 到 当前 进程 被 调度 运行 ， 并 且 下 列 条 件 之 一 得 到 满足 时 才 结 束 〈 见 代 个 
中 的 “goto end_wait4” if 4): 

多 ”所 等 竺 的 子 进程 的 状态 变 成 TASK_STOPPED 成 TASK_ZOMBIE; 

多 ”所 等 待 的 子 进程 存在 ,可 是 不 在 上 | 列 两 个 状态 ， 而 调用 参数 options 路 的 WNOHANG 标志 位 为 

1， 或 者 当前 进程 收 到 了 其 他 的 信号 : 

e HRSA pid 的 那个 进程 根本 不 存在 ， 或 者 不 是 当前 进程 的 子 进程 。 

FU, 当前 进程 将 其 自身 的 状态 设 成 TASK_INTERRUPTIBLE( 见 499 行 ) 并 在 $7$ 行 调用 schedule) 
进入 睡眠 让 曾 的 进程 先 运 行 。 当 该 进程 因 收 到 信号 和 而 被 唤 卓 ， 并 上 及 受到 调度 从 schedule( ) 返 |n| 时 ， sb X 
经 由 576 行 的 goto 语句 转 回 repeat， 再 次 通过 一 个 for HEHE 了 进程 队列 ,看 看 所 等 待 的 子 进程 的 
状态 是 否 满足 条 件 。 这 里 的 for 循环 打 描 一 个 进程 的 所 有 子 进 程 ， 从 最 午 轻 的 子 进 程 开 始 济 着 由 各 个 
task, struct 结构 中 的 指针 p_osptr 所 形成 的 链 扫描， 找寻 与 所 等 待 对 象 的 pid 相符 的 子 进 程 、 或 符合 其 
他 一 些 条 件 的 了 进程 。 这 个 for 循环 又 联 套 在 一 个 do while 循环 中 。 为 什么 要 有 这 个 外 层 的 do while 
循 坏 呢 ? 这 是 因为 当前 进程 可 能 是 一 个 线程 ， 而 所 等 待 的 对 象 实际 [是 由 同 个 进程 克隆 出 来 的 汶 一 
个 线程 的 子 进程 ， 所 以 区 通过 这 个 do while 循环 米 检查 同一 个 thread. group 中 所 有 线程 的 了 进程 。 代 
码 中 的 next_thread( ) 从 同 - -个 thread. group 队列 中 找到 下 一 个 线程 的 task_struct 结构 ， 并 使 局 部 量 tsk 
指 问 这 个 结构 。 在 我 们 这 个 情景 中 ， 当 父 进程 调用 wait4( ) 而 第 一 次 扫描 其 子 进程 队列 时， 该 革 进 程 尚 
企 运 行 ， 所 以 通过 schedule( ) 进 入 睡 眼 。 当 了 进程 exit( ) 时 ， 会 向 父 进 程 发 一 个 信号 ， 从 而 将 其 唤醒。 
怎么 唤醒 呢 ? 我 们 在 前 面 看 到 ， 子 进程 在 exit_notify( ) 中 通过 do_notify_parent( ) 向 父 进程 发 送信 号。 这 
个 函数 准备 下 一 个 siginfo 数据 结构 ， 然 后 调用 send sig info( ) 将 其 发 送 给 父 进 称 ， 并 调 骨 
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wake up process( ) 将 父 进程 唤醒 。 对 send sig info( ) 的 代码 我 们 将 在 “进程 间 通 信 ” 的 信号“ 节 中 介 
绍 。 而 wake_up_process()， 则 把 父 进程 的 状态 从 TASK_INTERRUPTABLE 改 成 TASK_RUNNING, 并 
将 其 转移 到 可 执行 队列 中 ， 使 schedule( ) 能 够 “看 ”到 父 进程 而 可 以 调度 其 运行 。 

当 父 进程 因子 进程 在 exit( ) 向 其 发 送信 号 而 被 唤醒 时 ， 就 转 回 到 前 面 sys_wait4( ) 中 的 repeat 处 ， 又 
一 次 扫描 其 子 进程 队列 。 这 次， 了 进程 的 状态 已 经 改 成 TASK_ZOMBIE 了 ， 所 以 父 进 程 在 将 子 进程 
在 用 户 空 间 运 行 的 时 间 和 系统 空间 运行 的 时 间 两 项 统计 数据 合并 入 其 自身 的 统计 数据 中 。 然 后 ， 在 典 
型 的 条 件 下 ， 就 调用 release_task( ) 将 子 进 程 残存 的 资源 ， 就 是 其 task_struct 结构 和 系统 空间 堆栈 ， 全 
都 释放 (exit.c): 


[sys_wait4( ) > release( )] 


25 static void release task(struct task struct * p) 


26 { 

27 if (p != current) { 

28 #ifdef CONFIG SMP 

29 /* 

30 * Wait to make sure the process isn t on the 

31 * runqueue (active on some other CPU still) 

32 */ 

33 for (61 

34 task_lock (p) ; 

35 if (!p-has. cpu) 

36 break; 

37 task unlock(p); 

38 do { 

39 barrier( ); 

40 } while (p-^has cpu); 

4l } 

42 task unlock (p); 

43 Bendif 

44 atomic dec(&p-^user-?processes); 

45 free uid(p-— user); 

46 Unhash process (p) ; 

47 

48 release thread(p); 

40 current-^cmin flt += p-»min flt + p-?cmin flt; 

50 current-^cmaj flt += p->maj fit + p-^cmaj flt; 

5l current->cnswap += p->nswap + p~?cnswap; 

52 /* 

53 * Potentially available timeslices are retrieved 
54 * here - this way the parent does not get penalized 
55 * for creating too many processes. 

56 * 

57 * (this cannot be used to artificially ' generate’ 
58 * timeslices, because any timeslice recovered here 
59 * was given away by the parent in the first place.) 
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60 */ 

61 curreni-2counter += p-?counter; 

62 if (current -»counter >= MAX COUNTER) 
63 current->counter = MAX COUNTER; 
64 free task struct(p); 

65 } else { 

66 printk(“task releasing itself\n”) ; 
67 } 

68  ] 


这 里 通过 unhash_process( ) 把 子 进 程 的 task, struct ZETA M Zeiss se lA PHB, SRR HERE Eh 
儿 项 统计 信息 也 合并 入 父 进 程 。 侍 于 release thread( ) 只 是 检查 进程 的 LDT( 如 果 有 的 话 ) 是 否 确 己 释放 。 
Hija» tie A] free_task_struct( ) 将 task. struct 结构 和 系统 空间 堆栈 所 占据 的 吊 个 物理 页 面 释放 。 

在 sys_wait4( ) 中 还 有 个 特殊 情况 需要 考虑 ， 那 就 是 万 -- 了 进程 的 p_opptr 与 p_pptr 不 同 ， 也 就 是 
说 其 “养父 ”与 “生父 ”不 同 。 如 前 所 述 ， 进 程 在 exit( ) 时 ，do_notify_parent( ) 的 对 象 是 其 “养父 多 
但 是 当 “ 生 父 ” 与 “养父 ”不 同时 ， 其 “生父 ”可 能 也 在 等 待 ， 所 以 将 子 进程 的 p_pptr 指针 设置 成 与 
_opptr 相同 ， 并 通过 REMOVE LINKS 将 其 task struct. 从 其 “养父 ”的 队列 中 脱离 出 来 ， 上 骨 通 过 
SET LINKS 把 它 归 还 给 “生父 ”， 重 新 挂 入 其 “生父 ”的 队列 。 然 后 ， 给 其 “生父 ”发 一 信和 号， 让 它 
自己 来 处 理 。 

此 外 , 根据 当前 进程 全 调用 wait4( ) 时 的 要 求 , 还 可 能 要 把 -- 些 状态 信息 和 统计 信息 通过 put_user( ) 
复制 到 用 户 空间 中 。 如 果 复 制 失败 的 话 , 那 暂 时 就 不 能 将 子 进程 的 task_struct 结构 释放 了 (这 里 的 “goto 
end_wait4” 跳 过 了 对 release( ) 的 调用 )。 在 这 种 情况 下， 系统 中 会 留 下 子 进程 的 “尸体 ”， 用 户 通过 “ps” 
命令 米 观察 系统 中 的 进程 状态 时 ， 会 看 到 有 个 进程 的 状态 为 “ZOMBIE ”。 读 者 在 前 面 看 到 : 在 
exit notify( ) 中 ， 当 父 进程 要 结束 生命 前 为 其 子 进程 “ 托 抓 ”时 ， 还 要 看 一 下 子 进 程 的 状态 是 在 
TASK_ZOMBIE， 若 是 的 话 ， 就 要 替 它 调用 do_notify_parent( ) 给 新 的 “养父 ”发 一 信息 ， 就 是 这 个 原 
Ale 

全 此 ， 在 执行 了 release( UU, FERES RRK”, 从 系统 中 消失 了 。 

可 是 ， 要 是 父 进程 不 在 wait4( ) 中 等 待 呢 ? 那 也 不 要 紧 。 读 者 在 第 3 章 中 已 经 看 到 ， 每 当 进 程 从 系 
统 调用 、 中 断 或 异常 返回 时 ， 都 要 检查 :下 是 否 有 信号 等 待 处 理 ， 如 有 的 话 就 转 入 entry.S 中 的 
signal return 处 调用 do_signal( )。 而 do signal( ) 中 有 一 个 片段 为 (在 arch/i386/kernel/signal.c 中 ): 


643 ka = &current-^sig-^action[signr-1]; 

644 if (ka->sa. sa handler == SIG IGN) { 

645 if (signr != STGCHLD) 

646 continue; 

647 | /* Check for SIGCHLD: it's special. */ 

648 while (sys wait4(-1, NULL, WNOHANG, NULL) > 0) 
649 /* nothing */; 

650. continue; 

651 } 


可 见 父 进程 在 收 到 SIGCHLD 信号 后 还 会 被 动 地 来 调用 sys_wait4( )， 此 时 的 调用 参数 pid 为 一 1， 
表示 同 -个 进程 组 中 的 任何 一 个 子 进 程 都 在 处 埋 之 列 ( 见 sys_wait4( ) 的 for 循环 中 对 参数 pid 的 比 对 )。 
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当然 ， 如 果 父 进程 已 经 为 SIGCHLD 信号 设置 了 其 他 的 处 理 程序 ， 那 就 男 作 别论 了 。 

读者 也 许 还 会 问 ， 签 样 才能 保证 一 定 会 有 系统 调用 、 中 断 或 异常 来 迫使 其 父 进程 执行 do_signal( ) 
Wü? 7j “ 父 进 程 在 运行 时 既 不 作 系统 调 用 ， 也 不 访问 外 设 ， 更 没有 任何 操作 引起 异常 呢 ? gah 
中 斯 是 周期 性 地 发 生 的 ， 要 不 然 就 连 调度 也 有 可 能 不 会 发 生 了 ， 正 因为 如 此 ， 时 钟 中 断 才 被 看 作 是 系 
统 的 “心跳 ”。 
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在 多 进程 的 操作 系统 中 ， 进 程 调度 是 一 个 全 局 性 的 、 关 键 性 的 问题 ， 它 对 系统 的 总 体 设计 、 系 统 
的 实现 、 功 能 设置 以 及 各 方面 的 性 能 都 有 着 决定 性 的 影响 。 根 据 调度 结果 所 作 的 进程 切换 的 速度 ， 也 
是 衡量 一 个 操作 系统 性 能 的 重要 指标 。 进 程 调度 机 制 的 设计 ， 还 对 系统 复杂 性 有 着 极 大 的 影响 ， 弟 党 
会 由 于 实现 的 复杂 程度 而 在 功能 与 性 能 方面 作出 必要 的 权衡 和 让 步 。 一 个 好 的 系统 的 进程 调度 机 制 ， 
要 兼顾 三 种 不 同 应 用 的 需要 : 
e 交 开 式 应 用 。 在 这 种 应 用 中 ， 痢 重 于 系统 的 响应 速度 ， 使 共用 一 个 系统 的 各 个 用 户 《〈 以 及 各 个 
应 用 程序 ) 都 能 感觉 到 自己 是 在 独占 地 使 用 一 个 系统 。 特 别 是 ， 当 系统 中 有 大 量 进 程 共存 时 ， 
仍 要 能 保证 全 个 用 户 都 有 可 以 接受 的 响应 速度 而 并 不 感到 明显 的 延迟 。 根 据 测定 ， 当 这 种 延迟 
超过 150 毫秒 时 ， 使 用 者 就 会 明显 地 感觉 到 。 
e 批 处 理应 用 。 批 处 理应 用 往往 是 作为 “后 台 作 业 ” 运 行 的 ， 所 以 对 响应 速度 并 无 赣 求 ， 但 是 完 
成 一 个 作业 所 需 的 时 间 仍 是 一 个 重要 的 因素 ， 考 虑 的 是“ 平均 速度 ”。 
e 实时 应 用 。 这 是 时 间 性 最 强 的 应 用 ， 不 但 要 考虑 进程 执行 的 半 均 述 度 ， 还 要 考虑 “即时 速度 ” 
不 但 要 考虑 响应 速度 ( 即 从 某 个 事件 发 生 到 系统 对 此 作出 反应 并 开始 执行 有 关 程 序 之 间 所 需 的 
时 间 )， 还 要 考 虎 有 关 程 序 〈 常 常 在 用 户 空 间 》 能 徊 在 规定 时 间 内 执行 完 。 在 实时 应 用 中 ， 注 
重 的 是 对 程序 执行 的 “可 预测 性 ”。 
另外 ， 进 度 调 度 的 机 制 还 要 考虑 到 “公正 性 ” 让 系统 中 的 所 有 进程 都 有 机 会 向 前 排 进 ， 尽 管 其 进 
度 各 有 不 同 ， 并 最 终 受 到 CPU 速度 和 负载 的 影响 。 更 重要 的 是 ， 还 要 防止 “ 死 锁 ” 的 发 生 ， 以 及 防止 
对 CPU 能 力 的 不 合理 使 用 ， 也 就 赵 说 要 防止 CPU 尚 有 能 力 且 有 进程 等 着 执行 ， 却 由 于 某 种 原因 而 长 
时 间 得 不 到 执行 的 情况 。 旦 这 些 情况 发 咎 时 ， 调 度 机 制 还 应 能 识别 与 化 解 。 可 以 说 ， 关 于 进程 调度 
的 研究 是 整个 操作 系统 理论 的 核心 。 不 过 ， 本 书 的 日 的 在 于 对 Linux 内 核 的 剖析 和 解释 ， 而 不 在 于 理 
论 方 而 的 深入 探讨 ， 有 兴趣 的 读者 可 以 阅读 操作 系统 方面 的 专著 。 
为 了 满 中 上述 的 目标 ， 在 设计 -- 个 进程 调度 机 制 时 要 考虑 的 具体 问题 主要 有 ; 
(D)， 调 嵌 的 时 机 : 在 什么 情况 下 、 什 么 时 候 进行 调度 。 
(2) ”调度 的 “政策 ”(policy): 根据 什么 准则 挑选 下 一 个 进入 运行 的 进程 。 
(3) 调度 的 方式 ， 是 “可 和 剥夺”(preemptive) 还 是 “不 可 剥夺 ”(nonpreemptive)。 当 正在 这 行 的 
进程 并 不 自愿 暂时 放弃 对 CPU 的 “使 用 权 ” 时 ， 是 否 可 以 强制 性 地 暂时 潭 村 其 使 用 权 , 停止 
其 运行 而 给 其 他 的 进程 一 个 机 会 。 如 果 是 可 剥夺 ， 那 么 炬 否 在 任何 条 件 下 都 可 剥 命 ， 有 没有 
“例外 ”? 
这 三 个 问题 ， 特 别 是 第 一 和 第 二 个 问题 ， 是 紧密 结合 在 一 起 的 。 例 如 ， 如 果 调 度 的 性 质 是 绝对 地 
不 可 剥夺 ， 也 就 是 说 了 坚持 完全 自愿 的 点 则 ， 那 么 调度 的 时 机 也 就 基本 上 决定 了 ， 只 能 在 有 一 个 进程 目 
愿 调度 的 时 候 才 能 进行 调度 。 相 应 地 ， 就 要 设计 一 个 “ 原 语 ”， 即 系统 调用 ， 让 进程 可 以 表达 自己 的 这 
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DAR. E, ALERE, WR “个 进程 因 陷 入 了 多 循环 而 抓 住 CPU 不 放 该 怎么 兴 。 

这 里 要 说 明 一 下 ， 在 中 文 里 也 许 应 该 把 是 否 可 以 剥夺 称 为 “政策 ”， 但 古 在 英文 的 书刊 中 已 经 把 调 
度 准则 或 标准 称 为 “policy” 所 以 我 们 只 好 把 这 称 为 “方式 ” 以 免 引起 不 必要 的 混淆 。 

进一步 ， 如 由 调度 的 性 质 是 有 条 件 地 可 测 夺 ， 那 么 ， 在 什么 情况 下 可 测 夺 就 成 了 重要 的 问题 。 例 
如 ， 可 以 把 时 间 划 分 成 时 间 片 ， 每 个 时 间 片 来 “次 时 钟 中 断 ， 而 调度 可 以 在 时 间 片 中 断 时 进行 。 按 进 
程 的 优先 级 别 的 高 低 进 行 调度 ， 每 个 时 间 片 “次 ， 除 此 之 外 就 只 能 在 进程 自愿 时 才 可 进行 调度 。 这 样 ， 
上 只 要 时 间 睫 划分 得 当 ， 交 三 式 应 用 的 娄 求 就 可 以 满足 了 。 但 是 ， 这 样 的 系统 显然 不 适合 实时 的 应 用 。 
因为 ， 有 可 能 发 生 “ 急 惊 风 遇 上 慢 郎 中 ”的 情况 ， 优 先 级 别 高 的 进程 急 着 归 运 行 ， 而 正在 运行 中 的 进 
程 偏偏 “觉悟 不 商 ”， 不 懂得 “ 先 人 后 已” 别 的 进程 只 好 干 等 着 它 把 时 间 片 用 完 而 坐 失 良 机 。 从 另 一 
个 角度 讲 ， 这 也 取决 于 技术 的 发 展 ， 特 别 是 CPU 的 速度 。 例 如 ， 就 在 这 么 一 个 系统 中 ， 如 果 可 以 把 时 
间 刻 分 小 到 0.5 毫秒 ， 而 CPU 仍 能 和 这 么 短 的 时 间 里 做 足够 多 的 事 ， 那 么 对 一 般 的 实时 应 用 来 说 可 能 
还 是 能 满足 要 求 的 ， 昌 然 从 整体 上 讲 CPU 用 在 调度 与 切换 上 的 开销 所 占 的 比例 上 升 了 。 

ABA, Linux 内 核 的 调度 机 制 到 底 是 什么 样 的 呢 ? 我 们 还 是 分 三 个 方面 来 同 答 这 个 问题 。 

在 往 下 叙述 之 前 ， 此 处 先 给 出 个 进程 的 状态 转换 关系 示意 图 (图 4.4)。 


fork( ) 


TASK, RUNNING 







资源 到 位 
wake_up_interruptible( ) 
或 收 到 信和 号 
wake_up( ) 


TASK_INTERRUPTIBLE 
浅 度 睡 眠 


等 待 资源 到 位 
interruptible sleep. on( ) 


schedule( ) 






收 到 信号 SIG_CONT 
wake_up( ) 





等 待 资源 到 位 
wake_up{ ) 


TASK_UNINTERRUPTIBLE 
OR HE HEAR 


schedule( ) 





















等 待 资源 到 位 
sleep_on( ) 
schedule( ) 












ptrace( ) 
schedule( ) 


TASK_STOPPED 
暂停 


do_exit( ) 










TASK_ZOMBIE 
死亡 但 户 门 坟 注 销 





图 4.4 进程 状态 转换 图 


先 看 调度 的 时 机 。 
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首先 ， 自 愿 的 调度 随时 都 可 以 进行 。 在 内 核 持 面 ， 一 个 进程 可 以 通过 schedule( ) 启动 一 次 调度 ， 
当然 也 可 以 在 调用 schedule( ) 之 前 ， 将 本 进程 的 状态 设置 成 为 TASK_INTERRUPTIBLE 或 
TASK_UNINTERRUPTIBLE， 暂 时 放弃 运行 而 进入 考 根 。 在 用 户 空 间 中 ， 则 可 以 通过 系统 调用 pause() 
来 达到 同样 的 目的 。 也 可 以 为 这 种 自愿 的 暂时 放弃 运行 加 上 -时间 限 制 。 在 内 核 中 有 schedule timeout( ) 
用 于 此 项 目的 ， 相 应 地 ， 在 用 户 空间 则 可 以 通过 系统 调用 nanosleep( ) 而 达到 日 的 《注意 ，sleep( ) 是 库 
疯 数 ， 不 是 系统 调用 ， 但 最 终 要 通过 系统 调用 米 完 成 )]。 这 里 此 指出 ;从 应 用 的 角度 看 ， 只 有 在 用 尸 空 
则 自愿 放 充 运行 这 一 举动 是 可 见 的 ;而 在 内 想 中 自愿 放弃 运行 则 是 不 可 见 的 ， 它 隐藏 在 其 他 可 能 受阻 
的 系统 调用 中 。 几 乎 所 有 涉及 到 外 设 的 系统 调用 ， 如 open( )、read( )、write( ) 和 select( ) 等 ， 都 是 可 能 
BAI. 

除 此 之 外 ， 调 度 还 可 以 非 自愿 地 ， 即 强制 地 发 生 在 每 次 从 系统 调用 返回 的 前 夕 ， 以 及 每 次 从 中 斯 
或 异常 处 理 返 回 到 用 户 空 间 的 前 夕 。 注 意 ， 这 里 “返回 到 用 户 空 间 ” 几 个 字 是 关键 性 的 ， 因 为 这 意味 
着 只 有 在 用 户 空间 C4 CPU 在 用 户 空间 运行 时 ) 发 生 的 中 断 或 异常 才 会 引起 调度 。 关 于 这 一 点 我 们 在 
第 3 章 讲述 中 断 返 回 时 提 到 过 ， 但 是 有 必要 在 此 加 以 强调 ， 并 重 温 entry.S "FUP B: 


260 ret from exception: 
261 #ifdef CONF1G SMP 


LM S SZ 


267 Helse 

268 movl SYMBOL NAME (irq stat), %ecx # softirg active 
269 test] SYMBOL NAME(irg_stat)+4, %ecx # softirq mask 
270 #endif 

271 jne handle softirq 

212 

213 ENTRY(ret from intr) 

214 GET. CURRENT (%ebx) 

275 movl EFLAGS (%esp), %eax 8 mix EFLAGS and CS 

216 movb CS (%esp), %al 

277 test] $(VM MASK | 3), %eax 8 return to VM86 mode or non-supervisor? 
278 jne ret with reschedule 

279 jmp restore_all 


277 行 中 寄存 器 EAX 的 内 容 有 两 个 来 源 , 其 最 低 的 字 节 来 自 保 存在 堆栈 中 的 进入 中 凯 前 夕 段 寄存 
器 CS 的 内 容 ， 最 低 的 两 位 表示 当时 的 运行 级 别 。 从 代码 中 可 以 看 到 ， 转 入 ret_with_reschedule 的 条 件 
为 中 断 (或 异常 ) 发 生前 CPU 的 运行 级 别 为 3， 即 用 户 状 态 〈 我 们 在 这 里 不 关心 VM_MASK, WEA 
VM86 模式 而 设置 的 )。 这 一 点 对 于 系统 的 设计 和 实现 有 很 重要 的 意义 。 因 为 那 意 味 着 当 CPU ENB 
中 运行 时 无 需 考虑 强制 调度 的 可 能 性 。 发 生 在 系统 空间 的 中 断 或 异常 当然 是 可 能 的 ， 但 是 这 种 中 断 或 
异常 不 会 引起 调度 。 这 就 使 内 核 的 实现 简化 了 ， 早 期 的 Unix 内 核 正 是 靠 这 个 前 提 来 简化 其 设计 与 实现 
的 。 否 则 的 话 ， 内 核 中 所 有 可 能 为 一 个 以 上 进程 共享 的 变量 和 数据 结构 就 全 都 要 通过 互 斥 机 制 〈《 如 信 
SO 加 以 保护 ， 或 者 说 都 要 放 在 临界 区 中 。 不 过 ， 随 着 多 处 理 器 SMP 系统 结构 的 出 现 以 及 日 益 三 泛 
的 采用 ， 这 种 简化 正在 失去 重要 性 。 在 多 处 理 器 SMP 系统 路 〈 见 “多 处 理 器 SMP 系统 结构 ”一 章 )， 
尽管 在 内 核 中 由 于 不 会 发 生 调度 而 万 需 考 虚 万 斥 ， 但 却 不 能 不 考虑 在 另 一 个 处 理 器 上 运行 的 进程 访问 
共享 资源 的 可 能 性 。 这 样 ， 不 管 在 同一 个 CPU 上 是 谷 有 可 能 在 内 核 中 发 生 调 度 ， 所 有 可 能 为 多 个 进程 
(可 能 在 不 同 的 CPU 上 运行 ) 共享 的 变量 和 数据 结构 ， 都 得 保护 起 来 。 这 就 是 读者 在 阅读 代码 时 看 到 
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那么 多 的 up( )、down( ) 等 信号 量 操作 或 加 锁 操 作 的 原因 。Linux 内 核 中 一 般 将 用 于 多 处 理 器 SMP 结构 
的 代码 放 丰 条 件 编译 者 fdef __SMP 中， 但是 却 没有 把 这 些 用 于 互 斥 保护 的 操作 也 放 在 条 件 编译 中 。 
究 其 原因 ， 一 来 可 能 是 太 多 了 ， 加 不 胜 加 ， 再 说 在 单 处理 器 条 件 下 的 运行 时 开销 也 不 大 ;二 米 也 是 为 
日 后 对 调度 机 制 的 改进 葛 定 基础 。 

HA Linux 现行 的 这 种 调度 机 制 有 什么 缺点 或 未 足 ， 为 什么 可 能 会 有 有 后 的 改进 呢 ? 例如 ， 在 实 
时 的 应 用 中 ， 某 个 中 断 的 发 后 可 能 不 但 要 求 迅 速 的 中 断 上 服务 ， 还 要 求 迅速 地 调度 有 关 进 程 进入 运行 ， 
以 使 在 较 高 的 层次 上 ， 也 就 是 在 用 户 空 间 中 对 事件 进行 及 时 的 处 理 。 可 是 ， 如 果 这 样 的 中 断 发 生 在 内 
核 中 时 ， 本 次 中 断 返 丫 是 不 会 引起 调度 的 ， 而 要 到 最 初 使 CPU 从 用 户 空间 进入 内 核 的 那 次 系统 调用 或 
中 断 (或 异常 返回 时 小 会 发 生 调 度 。 倘 车 内 核 中 的 这 上 段 代 人 码 恰好 需要 较 长 时 间 完 成 的 话 ， 或 者 连续 
又 发 生 几 次 中 断 的 话 ， 就 可 能 将 调度 过 分 地 推迟 。 良 好 的 内 核 代码 可 以 减轻 这 个 问题 ， 但 并 不 能 从 根 
本 上 解决 问题 。 所 以 这 是 个 设计 问题 而 不 是 实现 问题 。 只 是 ， 随 着 CPU 速度 变 得 越 来 越 快 ， 这 个 问题 
渐渐 地 变 得 不 那么 重要 了 。 

注意 ,“ 从 系统 空间 返回 到 用 户 空间 ”只 是 发 生 调 度 的 必要 条 件 ， 而 不 是 充分 条 件 。 具 体 是 否 发 生 
凋 度 偿 要 在 有 无 此 种 要 求 ， 看 一 下 entry.S 中 的 这 一 段 代 公 : 


217 ret with reschedule: 


218 emp] $0, need resched (%ebx) 
219 jne reschedule 

220 cmpl $0, sigpending (%ebx) 
221 jne signal return 

222 restore all: 

223 RESTORE_ALL 


r $49 094 9*4 — 5 


281 reschedule: 
288 call SYMBOL NAME (schedule) 8 test 
289 jmp rct from sys call 


ADDL, 只 有 在 当前 进程 的 task_struct 结构 中 的 need. resched 字段 为 非 0 时 才 会 转 到 reschedule 处 调 
用 schedule( ) IBA, WESC AIX EBUE? 当然 症 内 核 ， 从 用 户 空间 是 访问 不 到 进程 的 task. struct ££ 
构 的 。 可 是 ， 内 核 在 什么 情况 下 设置 这 个 字段 呢 ? 除 当前 进程 通过 系统 调用 自愿 让 出 运行 以 及 在 系统 
调用 中 因 茶 种 原因 受 随 以 外 ， 主 要 就 是 汉 因 某 种 原 尖 唤醒 一 个 进程 的 时 候 ， 以 及 在 时 钟 路 断 上 服务 程序 
发 现 当 前 进程 已 经 连续 运行 人 入 的 时 候 。 

再 看 调度 的 方式 。 | 

Linux 内 核 的 油 上 度 方 式 可 以 说 是 “有 条 件 的 可 剥 舍 ” 方 式 。 当 进程 在 用 户 空间 运行 时 ， 不 管 自愿 个 
自愿， 一 旦 有 必要 《例如 已 经 运行 了 是 够 长 的 时 间 )， 内 核 就 可 以 暂时 剥夺 其 运行 而 调度 其 他 进程 进入 
运行 。 可 是 ，… 旦 进程 进入 了 内 核 空间 , 或 者 说 进入 了 “长 官 ”(supervisor) ER, AUTE RET ES 
层 ” 而 “ 刑 不 上 人 大 大 ”了 。 这 时 候 ， 尽 管内 核 知 阁 应 该 要 调度 了 ， 但 实际 上 却 不 会 发 生 ，， .让 要 到 该 
进程 即将 “下 台 ”， 也 就 是 同 到 用 户 空间 的 前 多才 能 剥夺 其 运行 。 所 以 ，Linux 的 调度 方式 从 版 则 上 来 
说 足 可 剥夺 的 , 可 是 在 实际 运行 中 由 十 调度 时 机 的 限制 而 变 成 了 有 条 件 的 ,下 因为 这 样 ,有 的 书 说 Linux 
的 调度 是 可 剥夺 的 ， 有 的 却说 是 不 可 剥 舍 的 ， 甚 至 同一 本 书 中 有 时 候 说 是 可 剥夺 的 ， 有 时 候 又 说 是 不 
可 判 夺 的 ， 其 原因 盖 出 于 此 。 

那么 ， 简 夺 式 的 调度 发 生 在 什么 寺 候 昵 ”同样 也 是 发 牛 存 进程 从 系统 空间 (包括 内 系 统 调用 进入 
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内 核 ) 返回 用 户 空间 的 前 夕 。 
至 于 调度 政策 ， 基 本 上 是 从 UNIX 继承 下 来 的 以 优先 级 为 基础 的 调度 。 内 核 为 系统 中 的 每 个 进程 


程 的 资格 随时 间 而 递减 ， 从 而 在 下 一 次 调度 的 时 候 原来 资格 较 低 的 进程 可 能 就 更 有 资格 运行 了 。 到 所 
有 进程 的 资格 都 变 成 了 0 时， 就 重新 计算 一 次 所 有 进程 的 资格 。 资 格 的 计算 主要 是 以 优先 级 为 基础 的 ， 
所 以 说 是 以 优先 级 为 基础 的 调度 。 

但 是 ， 为 了 适应 各 种 不 同 应 用 的 需要 ， 内 核 在 此 基础 上 实现 了 三 种 不 同 的 政策 : SCHED HIFO. 
SCHED RR 以 及 SCHED_OTHER。 每 个 进程 都 有 自己 的 适用 的 调度 政策 ， 并 且 ， 进程 还 可 以 递 过 系统 
调用 sched_setscheduler( ) 设 定 自 己 适 用 的 调度 政策 。 其 中 SCHED_FIFO 适合 于 时 间 性 要 求 比较 蝇 、 但 
每 次 运行 所 需 的 时 间 比 较 短 的 进程 ， 实 时 的 应 用 大 部 具有 这 样 的 特点 。SCHED_RR 中 的 “RR” 表 示 
“Round Robin”， 是 轮流 的 意思 ， 这 种 政策 适合 比较 大 、 也 就 是 每 次 运行 需 时 较 长 的 进程 。 和 而 除 此 二 
者 之 外 的 SCHED_OTHER， 则 为 传统 的 调度 政策 ， 比 较 适 合 于 交互 式 的 分 时 应 用 。 

既然 位 个 进程 都 有 自己 的 适用 调度 政策 ， 内 核 怎 样 在 适用 不 同调 度 政策 的 进程 之 间 决 定 取 舍 呢 ? 
实际 上 最 后 还 是 都 归结 到 各 个 进程 的 权 值 ， 只 不 过 是 在 计算 资格 时 把 适用 政策 也 考虑 进去 ， 就 好 像 考 
大 学 时 符合 某 些 特殊 条 件 的 考生 可 以 获得 加 分 一 样 。 同 时 ， 对 于 适用 不 同 政策 的 进程 的 优先 级 别 也 加 
了 限制 。 我 们 将 结合 代码 更 深入 地 讨论 这 些 政策 间 的 差异 和 作用 。 

下 面 ， 我 们 就 结合 代码 深入 到 调度 和 切换 的 过 程 中 去 。 在 本 节 中 我 们 先 看 一 个 主动 调度 ， 也 就 是 
由 当前 进程 自愿 调用 schedule( ) 暂 时 放弃 运行 的 情景 。 在 exit( ) 一 节 中 ， 读 者 已 经 看 到 “个 止 在 结束 生 


里 面 去， 其 代码 在 kernel/sched.c "P: 


498 /* 

499 * "schedule( )' is the scheduler function. It's a very simple and nice 
500 * scheduler: it's not perfect, but certainly works for most things. 
501 * 

502 * The goto is "interesting". 

503 * 

504 *  NOTE!! Task 0 is the ’idle’ task, which gets called when no other 
505 * tasks can run. It can not be killed, and it cannot sleep. The ’ state’ 
506 * information in task[0] is never used. 

507 */ 

508 asmlinkage void schedule (void) 

509 { 

510 struct schedule data * sched data; 

511 struct task struct *prev, *next, *p; 

512 struct list head **tmp; 

513 int this cpu. c; 

514 

515 if (!current-^»active mm) BUG( ); 

516 need resched back: 

517 prev = current: 

518 this epu = prev-?processor; 

519 

520 if (in interrupt ( )) 
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521 goto Scheduling in interrupt; 

522 

523 release kernel lock(prev, this cpu); 

524 

525 /* Do "administrative" work here while we don't hold any locks */ 
526 if (softirq aciive(this cpu) & softirq mask(this cpu)) 

527 goto handle softirq; 

528 handle softirq back: 

529 


这 个 函数 中 使 用 了 许多 goto 语句 。 对 十 这 么 一 个 非常 频繁 地 执行 的 浮 数 ， 把 运行 效率 放 在 第 一 
位 是 可 以 理解 的 ， 只 是 给 阅读 和 理解 带 米 了 一 些 困难 。 

以 前 我 们 讲 过 ， 在 task struct 结构 中 有 两 个 mm_struct 指针 。 一 个 是 mm， 指向 代表 着 进程 的 虚 丰 
CA) 空间 的 数据 结构 。 如 果 当 前 进程 实际 上 是 个 内 核 线程 ， 那 就 没有 用 户 空 间 ， 所 以 其 mm 指针 
为 0， 运 行 时 就 要 暂时 借用 在 它 之 前 运行 的 那个 进程 的 active_mm。 所 以 ， 正 在 运行 中 的 进程 ， 也 即 当 
前 进程 ， 在 进入 schedule( ) 时 其 active mm 一 定 不 能 是 0 ( 见 515 行 )。 后 面 我 们 还 此 回 到 这 个 话题 上 。 

以 前 讲 过 ， 对 schedule( ) 只 能 由 进程 在 内 核 中 主动 调用 , 或 者 在 当前 进程 从 系统 空间 返 蔬 用 户 空间 
的 前 夕 被 动 地 发 生 ， 而 不 能 在 一 个 中 断 服务 程序 的 内 部 发 牛 。 即 使 个 中 断 服 务 程 序 有 调度 的 要 求 ， 
也 只 能 通过 把 当前 进程 的 need_resched 字段 设 成 1 KRAKER, 而 不 能 直接 调用 schedule( )。 读者 
也 许 会 问 ， 我 们 在 第 3 章 中 看 到 ， 在 执行 中 断 服务 程序 的 时 候 是 允许 开 中 断 的 ， 如 果 在 执行 过 程 中 发 
ETRE PM, 那么 当 从 嵌 套 的 中 断 返 回 时 不 是 也 要 调用 schedule( ) 吗 ? 那 不 就 等 于 是 在 中 断 服务 程序 
的 内 部 调用 了 这 个 函数 吗 ? 其 实 ， 从 徐 套 的 中 断 返 加 时 不 会 调用 schedule( ), 因为 此 时 的 中 断 返 回 并 不 
征 返 问 到 用 户 空间 。 还 要 注意 : 因 中 断 而 进入 内 核 并 不 等 于 已经 进入 了 其 个 中 断 服务 程序 ， 而 当 CPU 
要 从 系统 空间 返回 用 户 空 间 之 时 则 已 经 离开 了 有 具体 的 中 断 服 务 程序 ， 详 见 第 3 总。 所 以 ， 如 果 在 基 个 
中 断 服 务 程序 内 部 调用 schedule( )， 那 一 定 是 有 问题 了 ， 所 以 转向 scheduling_in_interupt。 接 着 看 


sched.c: 


[schedule( )] 

686 scheduling in interrupt: 

687 printk( “Scheduling in interrupt\n’) ; 
688 BUG( ) ; 

689 return; 





内 核对 此 的 反应 是 显示 或 者 在 /var/log/messages 文件 未 尾 添上 一 条 出 错 信息 ， 然 后 执行 一 个 安 操 
{E BUG, 1824 include/asm-i386/page.h 中 定义 的 : 


85 /* 

86 * Tell the user there is some problem. Beep too, so we can 
87 * see HH Hhear bugs in early bootup as well! 

88 */ 

89  tdefine BUG( ) do { \ 

90 printk( kernel BUG at %s:%d!\n”, — FILE. , LINE. ); \ 
91 asm _ volatile  (".byte OxOf, 0xO0b^) ; \ 
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92  } while (0) 


这 里 的 奥妙 之 处 是 在 01 行 中 准备 下 了 两 个 字 节 0x0f 和 OxOb, ib CPU 当 作 指令 去 执行 。 可 是 由 这 
天 个 字 节 构 成 的 是 非法 指令 ， 因 而 会 产生 一 次 “非法 指令 invalid op)" W, E CPU 执行 
do_invalid_op( )。 当 然 ， 在 实际 运行 中 这 样 的 错误 〈 在 中 断 服 务 程序 或 bf 函数 的 内 部 调用 schedule( )) 
是 不 会 发 生 的 ， 除 非 正在 调试 用 户 自 已 编写 的 中 断 服务 程序 。 

我 们 同 过 头 来 继续 往 下 看 schedule( )， 这 里 523 行 的 relsase_kernel_lock( ) 对 于 i386 单 处 理 器 系统 
为 空 语句 ， 所 以 接着 就 是 检查 是 否 有 内 核 软 中 段 服务 请 求 在 等 待 〈《 见 第 3 章 )。 如 果 有 就 转 入 
handle_softirq 为 这 些 请 求 服务 ， 


[schedule( )] 

675 handle_softird: 

676 do softirg( ); 

677 goto handle softirg back; 
从 执行 softirq 队列 完毕 以 后 继续 往 下 看 : 


{schedule( )] 


528 handle softirq back: 


529 

530 /* 

531 * 'sched data' is protected by the fact that we can run 
532 * only one process per CPU. 

593 */ 

534 sched data = & aligned data[this cpu). schedule data; 
535 

536 spin lock irq(&runqueue lock); 

537 

538 /* move an exhausted RR process to be last.. */ 

539 if (prev->policy == SCHED RR) 

540 goto move rr last; 

541 move rr back: 


GEL sched data 指向 一 个 schedule. data 数据 结构 , 用 来 保存 供 下 一 次 调度 时 使 用 的 信息 (sched.c): 


9] /* 

92 * We align per-CPU scheduling data on cacheline boundaries, 
93 * to prevent cacheline ping-pong. 

94 */ 

95 static union { 

96 struct schedule data { 

97 struct task struct * curr; 

98 cycles t last schedule; 

99 ] schedule data; 
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100 char | pad [SMP CACHE BYTES]: 
101 } aligned data [NR CPUS] | cacheline aligned = { {{&init task, O}}}: 


这 里 的 类 型 cycles t 实际 上 是 尤 符号 整数 ， 用 来 记录 调度 发 生 的 时 间 。 这 个 数据 结构 是 为 多 处 理 
器 SMP 结构 而 设 的 ， 所 以 我 们 在 这 里 并 不 关心 。 数 组 中 的 第 一 个 元 素 ， 即 CPU 0 的 schedule data 结 
构 初 始 化 成 {&init_task, 0}， 其 余 的 则 全 为 {0, 0}。 代码 中 __cacheline_aligned 表示 数据 结构 的 起 点 应 与 
高 速 缓存 中 的 缓冲 线 对 齐 。 

下 面 就 要 涉及 可 执行 进程 队列 了 ， 所 以 先 将 这 个 队列 锁 住 ， 以 防止 来 自 其 他 处 惠 器 的 干扰 。 如 果 
当前 进程 prev 的 调度 政策 为 SCHED_RR， 即 轮换 调度 ， 那 就 要 先进 行 一 点 特殊 的 处 理 。SCHED_RR 
和 SCHED FIFO 都 是 基于 优先 级 的 调度 政策 ,可 是 在 怎样 调度 具有 相同 优先 级 的 进程 这 个 问题 上 二 者 
AKG. ia BORA SCHED FIFO 的 进程 … 口 受 到 调度 页 开始 运行 之 后 ， 就 要 一 直 运 行 到 白 愿 让 出 或 
者 被 优先 级 更 高 的 进程 剥夺 为 止 。 对 于 得 次 受到 调度 时 要 求 运行 时 间 不 长 的 进程 ， 这 样 并 没有 什么 不 
X. 可 是 ， 如 果 是 受到 调度 后 可 能 会 长 时 间 运 行 的 进程 ， 那 样 就 不 公平 了 。 这 种 不 公正 性 是 对 具有 相 
同 优先 级 的 进程 而 言 的 。 央 为 具有 更 高 优先 级 的 进程 可 以 剥夺 它 的 运行 ， 而 优先 级 更 低 的 进程 则 本 米 
就 没有 机 会 运行 。 但 是 ， 这 样 对 具有 相同 优先 级 的 其 他 进程 就 不 公平 了 。 所 以 ， 对 这 样 的 进程 应 该 实 
ÍT SCHED RR 调度 政策 ， 这 种 政策 在 相同 的 优先 级 上 实行 轮换 调度 。 也 就 是 说 ， 对 调度 政策 为 
SCHED RR 的 进程 有 个 时 间 配 额 ， 用 完了 这 个 配额 就 此 让 有 具有 相同 优先 级 的 其 他 就 绪 进 程 先 运行 。 这 
里 ， 就 是 对 调度 政策 为 SCHED_RR 的 当前 进程 的 这 种 处 理 〈sched.c); 


fschedule( )] 

679 move rr last: 

680 if (!prev->counter) | 

681 prev-?counter = NICE_TO_TICKS (prev->nice) : 
682 move last runqueue (prev); 

683 (d 

684 goto move rr back; 

685 


这 是 什么 意思 呢 ? 这 里 的 prev->counter 代表 着 当前 进程 的 运行 时 间 了 配额 ， 其 数值 在 每 次 时 钟 中 断 
时 都 要 递减 。 这 是 在 一 个 明 数 update process times( ) 中 进行 的 ， 详 见 下 一 节 。 不 管 一 个 进程 的 时 间 配 
人 额 有 多 高 ， 随 着 运行 时 间 的 积累 最 终 总 会 递减 到 0。 对 十 调度 政策 为 SCHED_RR 的 进程 ,一旦 其 时 间 
配额 降 到 了 0， 就 要 从 可 执行 进程 队列 runqueue 中 当前 的 位 置 上 移 到 队列 的 末尾 ， 同 时 恢复 其 最 初 的 
时 间 配 额 。 对 于 具有 相同 优先 级 的 进程 ， 调 度 的 时 候 排 在 前 面 的 进程 优先 ， 所 以 这 使 队列 中 具有 相同 
优先 级 的 其 他 进程 有 了 优势 。 宏 探 作 NICE_TO_TICKS 根据 系统 时 钟 的 精度 将 进程 的 优先 级 别 换算 成 
可 以 运行 的 时 间 配 额 ， 这 也 是 在 sched.c 中 定义 的 : 


44 /水 

45 * Scheduling quanta. 

46 * 

47 * NOTE! The unix “nice” value influences how long a process 
48 * gets. The nice value ranges from -20 to +19, where a -20 
49 * is a “high-priority” task, and a “+10” is a low-priority 
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50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
6l 
62 
63 
64 
65 
66 
67 


将 一 


成 的 : 


al 
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* task. 
* 
* We want the time-slice to be around 50ms or so, so this 
* calculation depends on the value of HZ. 
x/ 

tif HZ < 200 

#define TICK SCALE(x) ((x) >> 2) 

Helif HZ < 400 

#define TICK SCALE(x)  ((x) >> D 

#elif HZ < 800 

#define TICK SCALE(x) (x) 

Helif HZ < 1600 

Hdefine TICK_SCALE(x) (x) «€ 1) 

Belse 

Sdefine TICK SCALEGO  ((x) << 2) 

ftendif 


Hdefine NICE TO TICKS (nice) (T1CK SCALE (20- (nice)) +1) 


个 进程 的 task_struct ARIMA nT BUT EA Fi] rp 89 24 gi a ER BBA PURA BE H move, last, runqueue 


[schedule( ) > move, last runqueue( )] 


309 
310 
311 
312 
313 


static inline void move last runqueue (struct task struct * p) 
{ 

list del (&p->run list); 

list add tail (&p->run_list, &runqueue head): 


} 


把 进程 移 到 可 执行 进程 队列 的 来 尼 总 味 着 : UR PAS | A hr YER eA, (AE fT AR 
之 相同 的 进程 存在 ,再 么 ， 玫 个 资格 虽然 相同 而 排 在 前 面 的 进程 就 会 被 选 !。 继 续 让 schedule) ET 
Æ (sched.c): 


[schedule( )] 

541 move rr back: 

542 

543 switch (prev->state) | 

544 case TASK INTERRUPTIBLE: 

545 if (signal pending(prev)) { 
546 prev-?state = TASK RUNNING; 
547 break: 

548 } 

549 default: 

550 del_from_runqucue (prey) ; 
551 case TASK RUNNING: 
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552 } 
553 Prev->need resched = 0: 


当前 进程 就 是 正在 运行 中 的 进程 ， 可 起 当 进 入 schedule( ) 时 其 状态 却 不 一 定 是 TASK_RUNNING。 
例如 ， 在 我 们 这 个 情景 中 ， 当 前 进程 已 在 do_exit( ) 中 将 其 状态 改 成 了 TASK_ZOMBE。 又 例如 , 前 - 
节 中 我 们 看 到 当前 进程 在 sys_wait4( ) 中 调用 schedule( ) 时 的 状态 为 TASK_INTERRUPTIBLE。 所 以 ， 
这 里 的 prev->state 与 其 说 是 当前 进程 的 状态 还 不 如 说 是 其 意愿 。 正 因为 这 样 ， 妆 其 意愿 味 不 是 继续 进 
行 也 不 是 可 中 断 的 睡眠 时 ， 就 要 通过 del from runqueue( ) 把 这 进程 从 可 执行 队列 中 撤 下 来 。 另 一 方面 ， 
也 可 以 看 出 TASK INTERRUPTIBLE 与 TASK_UNINTERRUPTIBLE 两 种 睡眠 状态 之 间 的 区 别 ， 前 者 
在 进程 有 信号 等 待 处 理 时 要 将 其 改 成 TASK_RUNNING， 计 其 处 理 完 这 些 信 和 号 再 说 ， 而 后 者 则 不 受信 
写 的 影响 ,请 注意 , CE 548 行 与 549 行 之 间 并 无 break 诸 句 ,所 以 当 没 有 信号 等 待 处理 时 就 落 入 了 default 
的 情形 ， 同 样 要 将 进程 从 可 执行 队列 中 撤 下 来 。 反 之 ， 如 果 当 前 进程 的 意愿 是 TASK_RUNNING， 即 
继续 进行 【 见 551 行 )， 那 在 这 里 就 不 需要 有 什么 特殊 处 理 。 

然后 ， 将 prev->need_resched 恢复 成 0， 因为 所 需求 的 调度 已 经 在 进行 。 下 而 就 要 挑选 一 个 进程 来 
运行 了 《sched.c): 


[schedule( )] 

555 /* 

556 * this is the scheduler proper: 

557 x/ 

558 

559 repeat schedule: 

560 /* 

561 * Default process to select.. 

562 */ 

563 next = idle task(this cpu); 

564 c = -1000; 

565 if (prev->state == TASK RUNNING) 

566 goto stili running; 

567 

568 still running back: 

569 list for each(tmp, &runqueue head) | 
570 p = list entry(tmp, struct task struct, run list); 
571 if (can schedule(p, this cpu)) { 
572 int weight = goodness(p, this cpu, prev->active_mm) ; 
573 if (weight > c) 

574 c = weight, next = p; 
575 } 

576 } 


在 这 段 程序 中 ，next 总 是 指 同 已 知 最 佳 的 候选 进程 ，c 则 是 这 个 进程 的 综合 权 值 ， 或 运行 资格 。 挑 
选 的 过 程 从 idle 进程 由 0 号 进程 开始 ， 其 权 值 为 一 1000， 这 是 可 能 的 最 低 值 ， 表 示 仅 在 没有 其 他 进程 
可 以 运行 时 才 会 让 它 运 行 。 然 后 ， 忆 历 可 执行 队列 runqueue 中 的 每 个 进程 〈 在 单 CPU 系统 中 
can_schedule( ) 的 返回 但 水 二 为 1 )， 也 就 是 般 操作 系统 教科 书 中 所 称 的 “就 绪 ” 进 程 ， 为 每 一 个 这 样 
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的 进程 通过 函数 goodness( ) 计 算出 它 当前 所 具有 的 权 值 ， 然 后 与 当前 的 最 高 值 c 相 比 。 注 意 这 里 的 条 
件 “weight > ce”， 这 意味 着 “先入 为 大 ”。 也 就 是 说 ， 如 果 两 个 进程 共有 相同 权 值 的 话 ， 那 就 是 排 在 前 
徊 的 进程 胜出 。 代 码 中 的 list_for_each 是 个 宏 定 义 ， 定 义 于 include/linux/list.h: 


144 / 

145 * list for each -  iterate over a list 

146 * @pos: the &struct list head to use as a loop counter. 
147 * @head: the head for your list. 

148 */ 

149 #define list for each(pos, head) \ 

150 for (pos = (head)->next: pos != (head); pos = pos->next) 


RELA NN ae h, s E hn RU RU SE I PR XE TB E EAT -- 下 still_running 
Csched.c) : 


[schedule( )] 


670 still running: 


671 c = goodness (prev, this cpu, prev—>active mm); 
672 next = prev; 

673 goto still running back; 

674 


tat ac iit, BOR AAR SER RIS fT, IA TE REIRE ERE DL pibe ULAR AOR. x 
意味 着 ， 相 对 于 权 值 相同 的 其 他 进程 来 说 ， 当 前 进 称 优 先 。 
那么 ， 进 程 的 当 朋 权 值 是 怎样 计算 的 呢 ? 请 看 goodness( ) 的 代码 (sched.c): 


[schedule( ) > goodness( )] 


123 /* 

124 * This is the function that decides how desirable a process is.. 

125 * You can weigh different processes against each other depending 

126 * on what CPU they’ ve run on lately etc to try to handle cache 

127 * and TLB miss penalties. 

128 * 

129 * Return values: 

130 * | —]000: never select this 

131 * 0: out of time, recalculate counters (but it might still be 

132 * selected) 

138 * +ve: “goodness” value (the larger, the better) 

134 * +1000: realtime process, select this. 

135 */ 

136 

137 static inline int goodness (struct task struct * p, int this cpu, 
struct mm struct *this mm) 

138 | 
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int weight; 
/* 
* select the current process after every other 


* runnable process, but before the idle thread. 
* Also, dont trigger a counter recalculation, 


*/ 
weight - -1; 
if (p->policy & SCHED YIELD) 
goto out; 
/* 
* Non-RT process - normal case first. 
*/ 
if (p->policy == SCHED OTHER) 1 
/水 


* Give the process a first-approximation goodness value 
* according to the number of clock-ticks it has left. 

* 

* Don't do any other calculations if the time slice is 
* over.. 

*/ 
weight = p->counter: 

if ('!weight) 

goto out; 


#ifdef CONFIG SMP 
/* Give a largish advantage to the same processor... */ 
/* (this is equivalent to penalizing other processors) */ 
if (p->processor == this cpu) 
weight += PROC CHANGE PENALTY; 
#endif 


/* ... and a slight advantage to the current MM */ 
if (p->mm == this mm || !p-^mm) 
weight t= 1; 
weight += 20 - p->nice; 
goto out: 


/* 

* Realtime process, select the first one on the 
* runqueue (taking priorities within processes 
* into account). 
*/ 

weight = 1000 + p->rt priority; 

out: 
return weight; 
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首先 ， 如 果 一 个 进程 通过 系统 调用 sched. yield ) 明 确 表示 了 “礼让 ”后 ， 就 将 其 权 值 定 为 一 1。 这 
是 很 低 的 权 值 ， 一 般 就 络 进程 的 权 值 至 少 赴 0。 

对 于 没有 实时 要 求 的 进程 ， 即 调度 政策 为 SCHED_OTHER 的 进程 ， 其 权 值 主要 皮 决 于 由 个 因素 。 
-个 因素 是 剩 下 的 时 间 配 额 ， 如 果 用 完了 则 权 值 为 0。 另 一 个 因素 是 进程 的 优先 级 nice， 这 是 从 早期 
Unix 沿用 下 来 的 负 向 优先 级 ， 其 数值 表示 “谦让 ”的 程度 ， 所 以 称 为 “nice”。 其 取 值 冰 围 为 19~ 一 20， 
以 一 20 为 最 高 ， 只 有 特权 用 户 才 能 把 nice 值 设置 成 小 十 0; 而 (20 — p->nice》 则 掉 转 了 它 的 方 疝 成 
为 1 至 40。 所 以 ， 综 合 的 权 值 在 时 间 配 额 尚未 用 完 时 基本 上 是 一 音 之 和 。 此 外 ， 如 果 是 个 内 核 线程 ， 
或 者 其 用 户 空间 与 当前 进程 的 相同 ， 因 而 无 需 切 换 用 户 空间 ， 则 会 得 到 一 点 小 “奖励 ”将 权 值 额外 加 
l. 





对 于 实时 进程 ， 即 调度 政策 为 SCHED_FIFO 或 SCHED RR 的 进 各 ， 则 男 有 一 -种 正四 的 优先 级 ， 
那 就 是 实时 优先 级 rt_priority，( 这 里 的 “rt” 表 示 “real time”), MAEN (1000 + p->rt_priority)。 可 
RL, SCHED FIFO 和 SCHED RR 两 种 有 时 间 要 求 的 政策 赋予 进程 很 高 的 权 值 《相对 于 
SCHED_OTHER)， 这 种 进程 的 权 值 至 少 足 1000。 另 一 方面 ，rt_priotity 的 值 对 于 实时 进程 之 问 的 权 倡 
比较 也 起 着 重 此 的 作用 ， 其 数值 也 是 在 系统 调用 sched_setscheduler( ) 中 与 调度 政策 Jj EI. Mox 
里 还 可 以 看 出 : 对 十 这 两 种 调度 实时 政策 ， 个 进程 已 经 运行 了 多 久 , 也 号 是 时 间 配 额 p->counter 的 当 
前 值 , 对 权 值 的 计算 不 起 作用 。 不 过 , 前 面 已 经 看 介 , 对 十 调度 政策 为 SCHED_RR 的 进程 , 当 p->counter 
达到 0 时 会 导致 将 进程 移 到 队列 的 尾部 。 实 时 进程 的 nice 数值 与 其 优先 级 无 关 ， 促 是 对 SCHED_RR 
进程 的 时 间 配 额 大 小 有 关 。 山 于 实时 进程 的 权 值 有 个 很 大 的 基数 ， 当 有 实时 进 称 就 绪 时 非 实 时 进程 是 
没有 机 会 运行 的 。 


相当 复杂 的 算法 《〈 那 叶 还 没有 实时 进程 y， 后 米 在 实战 中 觉得 那 会 算法 太 复杂 了 ， 跑 不断 加 以 简化 ,在 
调度 的 效率 、 凋 度 的 公正 性 以 及 其 他 指标 之 闻 反 复权 衡 、 折 丙 ， 发 展 成 了 现在 这 个 样子 。 另 一 方面 ， 
对 实时 进程 的 调度 也 是 POSIX 标准 的 要 求 。 不 过 ，goodness( ) 这 个 函数 并 不 代表 Linux 的 凋 虐 算法 的 
全 部 ， 而 要 与 前 面 讲 到 的 对 SCHED RR 的 特 妹 处 理 、 对 意欲 继续 运行 的 妆 前 进程 的 特殊 处理 、 以 及 下 
面 要 讲 到 的 recalculate 结合 起 来 分 析 。 限 丁 篇 出， 本 书 将 专注 十 代码 本 身 的 逻辑 及 过 程 ， 而 不 对 调度 
算法 进行 定量 的 分 析 。 

加 到 schedule( )。 妆 代码 中 的 while 循环 结束 时 ， 变 量 c 小 的 值 有 几 种 可能 。 -种 可 能 起 “SAH 
0 的 止 数 ， 此 时 next 指向 挑选 出 米 的 进程 。 只 “种 可 能 是 c 的 值 为 0， 发 生 于 就 绪 队 列 中 所 有 进程 的 权 
值 都 是 0 的 时 候 。 由 寺 除 init 进程 和 调用 了 《系统 调用 ) sched_yield( ) 的 进程 以 外 ， 每 个 进程 的 权 但 最 
低 为 0， 所 以 只 此 队列 中 有 其 他 就 绪 进 程 存 在 就 不 可 能 为 负数 。 这 申 要 指出 ， 队 列 中 所 有 其 他 进程 的 权 
值 都 已 降 到 0， 说 明 这 些 进程 的 调度 政策 都 起 sCHED OTHER. DJ EE SCHED FIFO 或 
SCHED RR 的 进程 存在 ， 则 其 权 值 至 少 也 有 1000。 

ak PA Csched.c) : 


[schedule( )] 

578 /* Do we need to re-calculate counters? */ 
579 if (le) 

580 goto recalculate; 


. 368 . 


如 上 
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如 所 当前 已 经 选择 的 进程 〈 权 值 最 商 的 进程 ) 的 权 值 为 0， 那 就 要 重新 计算 各 个 进程 的 时 间 配 额 。 
所 述 ， 这 说 明 系 统 中 当前 没有 就 绪 的 实时 进程 。 而 且 ， 这 种 情况 已 经 持续 了 一 段 时 间 ， 因 为 否则 


SCHED OTHER 进程 的 权 值 便 没 有 机 会 “消耗 ”到 0。 


[schedule( )] 

658 recalculate: 

659 { 

660 struct task struct *p; 

661 spin unlock irq(&runqueue lock); 
662 read iock(&tasklist lock); 

663 for each task (p) 

664 p->counter = (p-^counter >> 1) + NICE TO TICKS(p— nice); 
665 read unlock(&tasklist lock); 

666 spin lock irq(&runqueue lock); 
667 } 

668 goto repeat schedule; 

669 


宏 定 义 for each task(), 读者 已 经 不 以 前 看 到 过 了 。 这 里 所 作 的 计算 是 将 每 个 进程 当前 的 时 间 配售 


p->counter 除 以 2, 再 在 上 面 加 上 由 该 进程 的 nice 值 换算 过 来 的 tick 数量 。 宏 操作 NICE_TO_TICKS 的 


定义 
的 计 
循环 
机 会 


也 在 前 面 看 到 过 了 CER, nice 值 对 于 非 实时 进程 既 表 示 优 先 级 也 决定 着 时 间 配 额 )。 可 见 ， 所 作 
算是 很 简单 的 。 这 里 要 注意 ，for_each_task( ) 是 对 所 有 进程 的 循环 ， 而 并 不 是 仅 对 就 绪 进 程 队列 的 
。 对 于 不 在 就 绪 进 程 队列 中 的 非 实时 进程 ， 这 里 得 到 了 提升 其 时 间 配 额 、 从 而 提升 其 综合 权 值 的 
。 不 过 ， 对 综合 权 值 的 这 种 提升 是 很 和 限 的 ， 每 次 重新 计算 都 将 原 有 的 时 间 配 额 减 六 ， 再 与 


NICE_TO_TICKSCO->nice) 相 加 ， 这 人 样 就 决定 了 重新 计算 以 后 的 综合 权 值 永远 也 不 可 能 达到 
NICE_TO_TICKS(p->nice) 的 两 倍 。 因 此 ， 妈 使 经 过 很 长 时 间 的 “万 光 养 星 *”， 也 不 能 达到 可 与 实时 进程 


竞争 
ET 


Ec 


的 地 步 (综合 权 值 全 少 是 1000)， 所 以 只 是 对 非 实 时 进程 之 间 的 竞争 有 意义 。 至 于 实时 进程 ， 时 间 
的 增加 并 不 会 提升 其 综合 权 值 ， 而 且 对 十 SCHED_FIFO 进程 则 连 时 间 配 额 也 是 没有 意义 的 。 计 算 
后 ， 程 序 转 回 标号 repeat schedule 处 重新 挑选 。 这 样 ， 当 再 次 完成 对 就 绪 进 程 队 列 的 打 描 时 ， 变 
的 值 应 该 不 为 0 了 ， 此 时 next 指向 挑选 出 来 的 进程 。 

进程 挑 好 之 后 ， 接 下 来 时 做 的 就 是 切换 的 事情 了 (sched.c): 


[schedule( )] 


581 
582 
083 
984 
585 
586 
987 
288 
589 
590 


/* 
* [rom this point on nothing can prevent us from 
* switching to the next task, save this fact in 
* sched data. 
*/ 
sched data >curr = next; 
#ifdef CONFTG SMP 
next-»has cpu = 1; 
next-—>processor - this cpu; 
&endi f 
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591 
592 
593 
594 
595 
596 


612 
613 
614 
615 
616 
617 
618 
619 
620 
621 
622 
623 
624 
625 
626 
627 
628 
629 
630 
631 
632 
633 
634 
635 
636 
637 
638 
639 
640 
641 
642 
643 
644 
645 
646 
647 
648 
649 
650 
651 
652 
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spin unlock irq(&runqueue lock); 


if (prev == next) 
goto same process; 


&ifdef CONFIG SMP 
Hendif /* CONFIG SMP */ 


kstat. context_swtchtt; 


/* 

* there are 3 processes which are affected by a context switch: 
* 

* prev == .... ==> (last => next) 


but prev is set to (the just run) ’ last’ process by switch to( ). 
This might sound slightly confusing but makes tons of sense. 
*/ 


prepare to switch( ); 


* 

* It's the ‘much more previous 'prev that is on next's stack, 
* 

* 


{ 
struct mm struct *mm = next->mm; 
struct mm struct *oldmm = prev-^5active mm; 
if (imm { 
if (next-^active mm) BUG( ); 
next-^active mm = oldmm; 
atomic inc (&oldmm->mm count); 
enter lazy tlb(oldmm, next, this cpu); 
} else { 
if (next->active_mm ‘= mm) BUG( ); 
switch_mm(oldmm, mm, next, this_cpu); 
} 
if (!prev-^mm) | 
prev-»active mm = NULL; 
mmdrop (o1dmm) ; 
} 
} 
/* 
* This just switches the register state and the 
* stack. 
*/ 


switch to(prev, next, prev); 
__schedule_tail (prev) ; 


same process: 
reacquire kernel lock(current); 


:370 . 
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653 if (current->need resched) 
654 goto need resched back; 
655 

656 return; 

657 


这 里 我 们 跳 过 对 SMP 结构 的 条 件 编 详 部 分 。 首先 ， 如 果 挑 选 出 米 的 进程 next 就 是 当前 进程 prev， 
就 不 用 切换 ， 直接 转 到 标号 same, process 处 就 返回 了 。 这 里 的 reacquire_kernel_lock( ) 对 于 i386 单 CPU 
结构 而 言 为 空 语句 。 前 面 己 经 把 当前 进程 的 need_resched 740, 如 果 现 在 又 成 了 非 0 则 一 - 定 是 发 生 了 中 
斯 并 日 情况 有 了 变化 ， 所 以 园 癌 tq. scheduler back 处 冉 调度 次。 和 否则， 如 果 挑 选 出 来 的 进程 next 与 
当前 进程 prev 不 同 ， 那 就 要 切换 了 。 对 十 i386 €" CPU 结构 而 言 ，prepare_to_switch( ) 也 是 空 语句 ， 而 
649 行 的 __schedule_tail( ) 则 只 是 将 涯 前 进程 prev 的 task. struct 结构 中 policy 字段 里 的 SCHED YIELD 
标志 位 清 成 0。 所 以 实际 上 只 剩 下 了 两 件 事 ， 其 一 是 对 用 户 虚 存 空 间 的 处 理 ， 其 二 就 是 进程 的 切换 
switch, to( ). 

先 来 看 对 用 户 空 间 的 处 理 , 这 里 之 所 以 要 新 开 一 个 scope A550 29 8E de MER rp Re 2H EL PAESE mm 
和 oldmm， 前 者 指 癌 “新 进程 ”next 的 mm_struct 结构 ， 后 者 则 为 “ 老 进程 ”prev 的 active_mm。 首 先 ， 
如 果 新 进程 是 个 不 具备 用 户 空间 的 内 核 线程 ,那么 其 active_mm 指针 也 必须 是 0， 否 则 就 一 定 是 出 了 问 
题 。 但 是 ， 内 核 的 设计 和 实现 实际 上 不 允许 一 个 进程 《哪怕 是 内 核 线程 ) 没有 active_mm， 因 为 指向 页 
曾 映 射 目录 的 指针 就 在 这 个 数据 结构 中 。 所 以 ， 如 果 新 进程 没有 自己 的 mm struct (因此 是 内 核 线程 )， 
就 要 在 进入 运行 时 向 被 切换 出 去 的 进程 借用 一 个 mm struct 结构 CX. 628 行 和 630 行 )。 可 是 借 来 的 
mm struct 结构 能 用 玛 ? 能 。 因 为 妹 然 没有 几 户 空间 ， 则 上 所 需 的 只 是 系统 罕 间 的 映射 ， 而 所 有 进程 的 系 
统 空间 映射 部 是 相同 的 。 那 么 ， 借 用 的 mm, struct 结构 什么 时 候 归 还 呢 ? 到 下 一 次 调度 其 他 进程 运行 
时 , 也 就 是 说 当 这 个 内 核 线程 被 切换 出 去 时 归还 , 这 就 是 638 行 至 641 行 所 做 的 事情 。 这 里 的 mmdrop( ) 
只 十 将 遂 过 共享 借用 的 mm_struct 结构 中 的 共享 计数 减 1， 而 不 是 真 的 将 此 结构 释放 ， 关 为 这 个 计数 在 
减 1 以 后 不 可 能 达到 0。 如 果 新 进程 next 有 自己 的 mm struct 结构 (因此 是 个 进程 )， 那 么 
next->actieve_mm 必须 与 next-»mm 相同 ， 人 省 则 就 有 问题 了 。 出 于 新 进程 有 自己 的 用 广 空间 ， 所 以 就 要 
通过 switch mm( ) 进 行 用 户 空间 的 切换 。 这 是 个 inline 前 数 ， 其 代码 在 include/asm_i386/mmu_context.h 
ms 


[schedule( ) > switch mm( )] 


28 static inline void switch mm(struct mm struct *prev, 
struct mm struct *next, struct task struci *tsk, unsigned cpu) 

29 f 

30 if (prev != next) { 

31 /* stop flush ipis for the previous mm */ 

32 clear bit(cpu, &prev >cpu_vm_mask) ; 

33 /* 

34 * Re-load LDT if necessary 

35 */ 

36 if (prev-^segments !- next-^segments) 

37 load LDT (next) ; 


38 #ifdef CONFIG SMP 
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39 cpu tlbstatelcpu].state = TLBSTATE OK; 

40 cpu tlbstate[cpu].active mm = next; 

41 Hendif 

42 set bit(cpu, &next-^cpu vm mask); 

43 /* Re-load page tables */ 

44 asm volatile("movl %0, %%cr3”: :^r" ( pa(next—pgd))) ; 
45 ) 


46 #ifdef CONFIG SMP 


58  fendif 
59 j 


对 于 单 CPU 结构 而 言 ， 这 里 关键 的 诸 句 只 有 一 行 ， 那 就 是 44 行 中 的 汇编 语句 ， 它 将 新 进程 页 面 
目录 的 起 始 物 理 地 址 装 入 到 控制 寄存 内 CR3 中 。 我 们 在 第 2 章 讲 过 ，CR3 总 是 指 疝 当前 进程 的 页 面目 
ox. ST LDT 则 仅 在 VM86 模式 中 才 使 用 ， 所 以 不 在 我 们 关心 之 列 。 

读者 也 许 会 问 ， 进程 本 身 尚 未 切换 ， 测 存储 管理 机 制 中 的 页 面目 录 指 针 CR3 却 已 经 切换 了 ， 这 样 
不 会 造成 问题 吗 ? 不 会 的 ， 因 为 这 个 时 候 CPU 在 系统 空间 运行 ， 而 所 有 进程 的 页 面目 录 中 与 系统 空间 
相对 应 的 目录 项 都 指向 相同 的 页 面 表 ， 所 以 ， 不 管 换 上 哪 一 个 进程 的 页 面 旦 录 都 一 样 ， 受 影响 的 只 是 
用 广 空间 ， 系 统 空间 的 映射 则 水 远 不 变 。 

现在 ,到 了 最 后 要 切换 进程 的 关头 了 。 所 谓 进 程 的 切换 主要 是 堆栈 的 切换 ,这 是 出 宏 操 作 switch_to( ) 
完成 的 ， 定 义 于 include/asm i386/system.h FP: 


[schedule( ) > switch, to( )] 


15 #define switch_to (prev, next, last) do | \ 

16 asm volatile("pushl %%esi\n\t” \ 

17 “pushl %%edi\n\t” \ 

18 “pushl %%ebp\n\t” \ 

19 ^movl %%esp, %0\n\t” /* save ESP */ \ 

20 "movl %3, %%esp\n\t~ /* restore ESP */ \ 

21 “movl $1f, %1\n\t” /* save FIP */ b 

22 "pushl %4\n\t” /* restore EIP */ \ 

23 ” imp . switch to\n” \ 

24 ARAS X 

25 “popl %%ebp\n\t” \ 

26 "popl %%edi \n\t” \ 

27 “popl %*%esi\n\t” \ 

28 ;"-m^ (prev->thread. esp), “=m” (prev—>thread. eip), Vw 
29 “=p” (last) \ 

30 :^m^ (next-^thread. esp), m" (next->thread. eip), \ 
31 “a” (prev), "d" (next), \ 

32 "b^ (prev)); \ 


33 } while (0) 


Aw ALP INC ay, RATARA C 程序 中 的 汇编 语 多 应 该 不 陌生 了 。 这 里 的 输出 
部 有 三 个 参数 ， 表 示 这 段 程序 执行 以 后 有 三 项 数据 会 有 改变 。 其 中 %0 和 %W1 都 在 内 存 中 ， 分 别 为 
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prev->thread.esp 和 prev-»thread.eip.ifij 462 则 与 寄存 器 EBX 结合 ， 对 应 于 参数 中 的 last。 测 输入 部 则 有 5 
个 参数 。 其 中 %3 和 9%4 在 内 人 存 中 ， 分 别 为 next->thread.esp 和 next->thread.eip, 965. %6 和 和 9%7 分 别 与 
寄存 名 EAX, EDX 以 及 EBX 结合 ， 分 别 对 应 十 prev, next 和 prev. 

这 一 上 段 程序 虽然 只 有 宴 究 数 行 ， 功 很 有 奥妙 。 先 米 看 开头 的 三 条 push 指令 和 结尾 处 的 三 条 pop 指 
4. 看 起 来 好 像 是 很 - 般 ， 其 实 却 暗藏 玄机 。 昌 看 第 09 474020 ff. 58 19 行将 当前 的 ESP， 也 就 是 当 
前 进程 prev 的 系统 空间 堆栈 指针 存 入 prev->thread.esp, 第 20 行 义 将 新 受到 调度 要 进入 运行 的 进程 next 
的 系统 空间 堆栈 指针 next->thread.csp HA ESP。 这 样 一 米 ，CPU 在 第 20 775 21 行 这 册 条 指令 之 问 就 
已 经 切换 了 堆栈 。 假 定 我 们 有 A. B 两 个 进程 ， 在 本 次 切换 中 prev 指向 A, T next 指向 B。 也 就 是 说 ， 
在 本 次 切换 中 A 为 要 “ 调 离 ”的 进程 ， 而 B 为 此 “切入 ”的 进程 。 敢 么 ， 在 这 里 的 第 164 20 行 是 在 
使 用 A 的 堆栈 ， 人 向 从 第 21 行 开始 就 是 在 用 B 的 堆栈 了 。 换 言 之， 从 第 21 行 开始 ,“ 当 前 进程 ”已 经 
是 B 而 不 是 A 了。 我 们 以 前 讲 过 ， 华 内 核 代码 中 当 需 要 访问 当前 进程 的 task. struct 结构 时 使 用 的 指针 
current 实际 上 上 是 宏 定义 ， 它 根据 当前 的 堆栈 指针 ESP 计算 出 所 需 的 地 址 。 如 果 第 21 行 处 引用 current 
的 话 ， 那 就 已 经 指向 了 B 的 task_struct 结构 了 。 从 这 个 意义 上 说 ， 进 程 的 切换 在 第 20 行 的 指令 执行 完 就 
己 经 完成 了 。 但 是 ， 构 成 一 个 进程 的 另 一 个 要 素 是 程序 的 执行 ， 这 方面 的 切换 显然 尚未 完成 。 孝 么 ， 
为 什么 在 第 16 至 18 fT push 进 A 的 堆栈 ， 而 在 第 25 行 至 27 行 却 从 B 的 堆栈 POP IKIE? 这 就 是 出 
妙 所 在 了 。 其 实 ， 第 25 行 至 27 行 是 在 恢复 新 切入 的 进程 在 上 -次 被 调 离 时 push 进 堆栈 的 内 容 。 

那么 ， 程 序 执行 的 切换 ， 有 具体 又 是 怎样 实现 的 呢 ? 让 我 们 来 看 第 21 行 至 24 行 。 第 21 行将 标号 
“1” 所 在 的 地 址 ， 实 际 上 就 是 第 25 行 的 pop 指令 所 在 的 地 址 保存 在 prev-»thread.eip 中 ， 作 为 进程 A 
下 一 次 被 调度 运行 而 切入 时 的 “返回 ”地 址 。 然 后 ， 又 将 next->thread.eip 奈 入 堆栈 。 所 以 ， 这 里 的 
next->thread.eip 正定 进程 B L 次 被 调 离 时 在 第 21 行 中 保存 的 。 它 也 指向 这 里 的 标号 “1” 即 25 行 
的 pop 指令 。 接 着 ， 在 23 行 通过 jmp 指令 ， 而 不 是 call 指令 ， 转 入 了 一 个 函数 __switch_to( )。 甩 不 
WES switch to( ) 中 十 了 些 什么 ， 当 CPU PUT SASH ret 指令 时 ， 由 于 是 通过 jmp 指令 转 过 去 的 ， 
最 后 进入 堆栈 的 next->thread.eip 就 变 成 了 返回 地 址 ， 而 这 就 是 标号 “1” 所 在 的 地 址 ， 也 就 是 25 行 的 
pop 指令 所 在 的 地 址 。 由 十 每 个 进程 在 被 调 离 时 都 此 执行 这 里 的 第 21 行 ， 这 就 决定 了 每 个 进程 在 受 到 
调度 恢复 运行 时 部 是 从 这 里 的 第 25 行 开 始 。 但 是 有 一 个 例外 ， 那 就 是 新 创建 的 进程 。 新 创建 的 进程 并 
没有 在 “| 次 凋 离 时 ”执行 过 这 里 的 第 16 至 21 行 ， 所 以 ”来 要 将 其 task, struct 结构 中 的 thread.eip 
事先 设置 好 ， :来 所 设置 的 “返回 地 址 ”也 未 必 是 这 蛙 的 标号 “1” 所 在 ， 这 皮 决 于 其 系统 空间 堆栈 的 
BE RKE, EAE fork( 六 一 全 中 已 经 看 到 , 这 个 地 十 在 copy_thread( ) 中 ( 见 arch/i386/kernel/process.c ) 
设置 为 ret_from_fork， 其 代码 在 entry.S 中 : 


179 ENTRY (ret from fork) 


180 pushl %ebx 

181 call SYMBOL NAME (schedule tail) 

182 addl $4, %esp 

183 GET. CURRENT (%ebx) 

184 testb $0x02, tsk_ptrace (%ebx) # PT TRACESYS 
185 jne tracesys exit 

186 jmp ret from sys call 


也 就 是 说 ， 对 于 新 创建 的 进程 ， 在 调用 schedule tail( ) 以 后 就 直接 转 到 ret. from sys. call, “返回 ” 
到 用 户 空间 去 了 。 将 前 面 情景 由 子 进程 被 创建 以 后 第 一 次 切入 叶 的 系统 室 半 稚 栈 和 父 进 程 创 建 了 子 进 
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程 以 后 被 调度 从 系统 调用 fork ) 返 回 而 切入 时 的 《系统 空间 ) 堆栈 作 一 比较 ， 就 可 以 看 得 更 清楚 了 ， 
图 4.5 是 一 幅 示 意图 。 


父 进程 子 进 和 


PE 
regs 
从 schedule( ) 返 回 的 地 址 ， 


ret from sys, call, 
entry.S 第 289 行 M 
entry.S 第 205 1T 
父 进程 恢复 运行 时 的 切入 点 ， E] ESP 


即 前 述 标号 为 "1” 处， system.h 


第 24 行 ESP 


图 4.5 系统 调用 返回 时 父子 进程 系统 堆栈 对 照 图 


在 堆栈 空间 的 顶部 ， 或 者 说 堆栈 的 “底部 ”， 是 父 进 程 因 fork( ) 系 统 调用 而 进入 系统 空间 时 保存 的 
返回 “现场 ” 包括 CPU 在 穿越 陷阱 门 时 自动 保存 在 系统 空间 堆栈 中 的 内 容 以 及 通过 entry.S 中 的 
SAVE ALL 保存 的 寄存 器 内 容 ， 合 在 一 起 形成 一 个 数据 结构 regs。 这 一 部 分 被 原封 不 动 地 复制 到 了 子 
进程 的 堆栈 中 ， 但 其 中 用 来 返回 函数 值 的 EAX 被 设 成 0， 而 指向 用 户 空间 堆栈 的 指 外 ESP 也 作 了 相应 
的 修改 ( 见 copy. thread( ))。 

父 进程 在 fork( ) 子 进程 以 后 ， 并 不 立即 主动 调用 schedule( )， 而 只 是 将 其 task struct. 结构 中 的 
need_resched 标志 设 成 了 1, 然后 就 从 do_fork( ) 和 sys_fork( ) 中 返回 。 经 过 entry.S 中 的 ret. from. sys. call 
到 达 ret, with reschedule 时 ， 如 果 其 task, struct 结构 中 的 need_resched 为 0， 那 就 直接 巡回 了 ， 这 时 其 
堆栈 指针 已 经 指向 了 regs, 所 以 RESTORE ALL 就 使 进程 四 到 用 户 空间 〈 参 看 第 3 章 )。 可 是 ， 现 在 
need resched 已 经 是 1， 就 要 调用 schedule( ) 进 行 调 度 ， 所 以 其 堆栈 指针 又 回 过 头 来 加 下 伸展 。 如 果 调 
度 的 结果 是 继续 运行 ， 那 就 马上 会 从 schedule( ) 返 回 ， 就 像 什 么 事 也 没 发 生 过 一 样 。 出 如 果 调 度 了 另 一 
个 进程 运行 ， 那么 其 系统 空间 维 栈 就 变 成 了 图 4.5 中 的 样子 。 处 于 堆栈 “顶部 ”的 是 进程 在 卜 一 次 被 调 
度 运行 时 的 切入 点 ， 那 就 是 在 前 面 switch_to( ) 的 代码 中 21 行 设置 的 。 注意 ，switch_to( ) 是 一 个 宏 操作 
而 并 不 是 一 个 函数 ， 所 以 堆栈 中 并 没有 从 switch_to( ) 返 回 的 地 址 。 将 来 ， 当 父 进 程 被 调度 恢复 运行 时 ， 
在 switch_to( ) 的 20 行 恢复 了 其 堆栈 指针 , 然后 在 __switch_to( ) 中 执行 ret 指令 时 就 “返回 ”到 了 25 77, 
所 以 其 堆栈 中 的 这 一 项 也 可 以 看 成 是 “从 __switch_to( ) 返 回 的 地 址 ”。 父 进程 最 后 返 同 到 了 entry.$ 中 
的 289 行 ， 紧 接着 就 会 跳 转 到 ret_from_sys_call。 相 比 之 下 ， 子 进程 的 这 个 “返回 地 址 ”被 设置 成 
ret_from_sys_call， 所 以 在 __switch_to( ) 一 执行 ret FES MEARE ENT ARH, $» 了 一 小 段 近 路 。 

HE. TES switch. to( ) 中 到 底 十 了 些 什么 呢 ? 看 arch/i386/kernel/process.c 中 的 相关 代码 : 


[schedule( ) > switch, to( ) > __ switch, to( )] 


604 /* 
605 * switch to(x,yn) should switch tasks from x to y. 
606 * 
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void __switch_to(struct task struct *prev p, struct task struct *next p) 


{ 


X 0X € 0 X X X OX X X X X X X X X X Xo X X 


*/ 


Bade RAR 


We fsave/fwait so that an exception goes off at the right time 
(as a call from the fsave or [wait in effect) rather than to 
the wrong process. Lazy FP saving no longer makes any sense 
with modern CPU’ s, and this simplifies a lot of things (SMP 
and UP become the same). 


NOTE! We used to use the x86 hardware context switching. The 
reason for not using it any more becomes apparent when you 
try to recover gracefully from saved state that is no longer 
valid (stale segment register values in particular). With the 
hardware task-switch, there is no way to fix up bad state in 
a reasonable manner. 


The fact that Intel documents the hardware task-switching to 
be slow is a fairly red herring - this code is not noticeably 
faster. However, there is some room for improvement here, 
so the performance issues may eventually be a valid point. 
More important, however, is the fact that this allows us much 
more flexibility. 


struct thread struct *prev = &prev p-^throad, 
*next = &next p-^thread; 
struct tss struct *tss = init tss + smp processor id( ); 


unlazy fpu(prev p); 


/* 

* Reload esp0, LDF and the page table pointer: 
*/ 

tss->esp0 = next->esp0; 


/* 

* Save away %fs and %gs. No need to save %es and %ds, as 

* those are always kernel segments while inside the kernel. 
*/ 

asm volatile( movl %%fs,%0":”=m” (&(int *)&prev— fs)); 

asm volatile("movl %%gs, X0^:"-m" (*(int *)&prev-^gs)); 


/* 

* Restore %fs and %gs. 

*/ 

loadsegment (fs, next.—>fs): 
loadsegment (gs, next->gs). 


/* 


* Now maybe reload the debug registers 
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655 */ 

656 if (next->debugreg{7]) { 

657 loaddebug (next, 0); 

658 loaddebug (next, 1); 

659 loaddebug (next, 2); 

660 loaddebug (next, 3); 

661 /* no 4 and 5 */ 

662 loaddebug (next, 6); 

663 loaddebug (next, 7); 

664 } 

665 

666 if (prev->ioperm || next->ioperm) | 

667 if (next-^ioperm) | 

668 /* 

669 * 4 cachelines copy ... not good, but not that 
670 * bad either. Anyone got something better? 

671 * This only affects processes which use ioperm( ). 
672 * [Putting the TSSs into 4k-tlb mapped regions 
673 * and playing VM tricks to switch the IO bitmap 
674 * is not really acceptable. | 

675 */ 

676 memcpy(Lss ^io bitmap, next-^io bitmap, 

671 IO BITMAP SIZE*sizcof (unsigned long)); 

678 tss->bitmap = IO BITMAP OFFSET; 

679 | else 

680 /* 

681 * a bitmap offset. pointing outside of the TSS limit 
682 * causes a nicely controllable SIGSEGV if a process 
683 * tries to use a port IO instruction. The first 
684 * sys ioperm( ) call sets up the bitmap properly. 
685 */ 

686 tss->bitmap = INVALID IO BITMAP OFFSET; 

687 } 

688  ] 


这 里 处 理 的 主要 是 TSS， 其 核心 就 是 第 638 行 ， 将 TSS 中 的 内 核 空 间 CO R) 堆栈 指针 换 成 
next->esp0。 这 是 因为 CPU 在 穿越 中 断 门 或 陷阱 门 时 要 根据 新 的 这 行 级 别 从 TSS 中 取得 进程 在 系统 罕 
间 的 堆栈 指针 《〈 详 见 第 3 章 )。 其 次 ， 段 寄存 器 fs 和 gs 的 内 容 也 随后 作 了 相应 的 切换 。 舍 十 CPU 中 为 
debug 而 设 的 一 些 寄存 加， 以 及 说 明 进 程 WO 操作 权限 的 位 图 〈 见 第 3 前)， 那 就 不 是 我 们 在 这 里 所 大 
心 的 了 。 

我 们 在 第 3 章 中 提 到 过 ，Intel 的 原意 是 让 操作 系统 为 每 个 进程 部 设置 :个 TSS， 通 过 切换 TSS 指 
针 、 也 就 是 寄存 器 TR 的 内 容 ， 由 CPU 的 硬件 来 实现 进程 〈 任 务 ) OR. RM LAR RIAL) 
的 ， 但 是 实际 上 却 术 必 合 适 。 这 里 ， 代 码 的 作者 加 了 一 段 注 释 ， 说 Linux 曾经 用 过 由 硬件 实现 的 切换 ， 
但 后 来 不 用 了 。 注 释 中 说 了 一 个 原因 ， 其 中 第 ARATE A E. AE, BARAER, A 
就 是 月 前 的 这 种 软件 实现 甚至 比 硬件 实现 可 以 史 快 。 至 于 第 王 个 原因 ， 则 灵活 性 ， 那 倒是 个 言 而 喻 的 。 

总 之 ， 除 刚 创建 的 新 进程 外 ， 所 有 进程 在 受到 调度 时 的 切入 点 都 是 在 switch to( )( 其 实 是 在 


- 376 - 


第 4 章 进程 与 进程 调度 


schedule( ) 中 ， 因 为 switch, to( A: SERVE) 中 的 标号 “1”，-… 直 运行 到 下 一 次 进入 switch_to( ) 以 后 在 
__switch_to( ) 中 执行 ret 为 目 。 或 者 也 可 以 认为 ， 切 入 点 在 switch. to( ) 中 的 25 行 ， 一 直 运 行 到 在 下 -一 
次 进入 Switch_to( ) 后 的 23 行 。 总 之 ， 这 新 、 旧 当前 进程 的 交接 点 就 在 switch_to( ) 这 段 代 但 中 。 

那么 ， 既 然 都 是 在 同一 点 上 交接， 并 且 从 此 以 后 一 直到 返回 用 户 空间 这 一 段 路 程 又 是 共同 的 ， 不 
同 进 程 的 不 同 “ 上 下文” 又 是 怎样 体现 的 呢 ? 这 不 同 就 在 于 系统 空间 堆栈 中 的 内 容 。 不 同 进程 进入 系 
统 空间 时 的 运行 现场 不 同 ， 返 回 地 址 不 同 ， 用 户 空间 堆栈 指针 不 同 ， 一 旦 辐 到 用 户 空 间 就 回 到 了 各 和 白 
HERE, KIATE T -o 

最 后 ， 让 我 们 回 到 在 系统 调用 exit( ) 中 通过 schedule, ) 自 愿 让 出 运行 的 情景 (图 4.6)。 由 于 对 
schedule( ) 的 调用 是 在 do_exit( ) 中 作出 的 ， 在 交接 时 这 个 进程 的 系统 空间 堆栈 如 图 4.6 所 示 。 


从 sys_exit( DA EIR Hai, 
entry.S 第 204 íT. 

从 do_exit( ) 返 回 的 地 址 ， 
1€ sys. exit( ) 中 。 

从 schedule( ) 返 回 的 地 址 ， 

在 do_exit( ) 中 。 

switch_to( ) 中 标号 为 “1?” 处 ， 
system.h 第 24 ÍT. 





图 4.6 进程 切换 时 系统 空间 堆栈 示意 图 


从 图 中 可 以 看 出 ， 如 果 《 假 定 〉 这 个 进程 像 其 他 进程 一 样 会 被 调度 继续 运行 的 话 ， 它 就 会 循 下 列 
的 路 线 返 回 到 用 户 空 间 ; 

(1) A switch to( ) 中 的 标号 “1” 处 恢复 运行 。 由 于 switch_to( ) 是 宏 操 作 而 个 十 函数 ， 所 以 这 实 

Ej EXE schedule( ) 中 。 

(2) AA schedule( )i [4] 8 do_exit( ) 中 。 

(3) 从 do_exit() 返 回 到 sys_exit( ) 中 。 

(4) AA sys_exit( ) 返 回 刘 entry.s 中 的 system. call 处 , 即 代 码 中 的 204 17. 

(5) ”通过 宏 操作 RESTORE, ALL 同 到 用 户 空 间 。 


此 处 所 讲 的 返回 路 线 与 前 面 讲 的 系统 调用 fork( ) 中 的 父 进 程 作 一 比较 ， 可 发 现 ， 进 程 主动 交 出 送 
行 时 的 系统 空间 堆栈 以 及 返回 路 线 与 被 动 地 被 剥夺 运行 时 有 所 不 同 。 前 者 取决 于 进程 在 何 处 调用 
Schedule( )， 而 后 者 则 一 定 是 在 entry.S 中 的 reschedule Xb. 

可 是 ， 在 exit( ) 这 个 情景 由 ， 由 才 在 调用 schedule( ) 之 前 已 经 把 进程 的 状态 改 成 TASK_ZOMBIE， 
历 以 不 会 贞 被 调度 运行 了 。 


4.7 强制 性 调度 


Linux 内 核 中 进 保 的 强制 性 调度 , 也 就 是 非 白 愿 的 、 被 动 的 、 和 剥夺 式 的 调度 , 主峰 是 由 时 间 引 起 的 。 
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前 面 讲 过 ， 这 种 调度 发 生 在 进程 从 系统 空间 返回 到 用 户 空间 的 前 夕 。 当 然 ， 并 非 每 次 从 系统 空间 返回 
到 用 户 空间 时 都 会 发 生 此 类 调度 。 从 第 3 章 中 以 及 前 节 引 日 entry.S 的 代码 片段 ret. with reschedule 可 
以 看 出 ， 此 时 是 否 真 的 调用 schedule( )， 最 终 述 要 取决 于 当前 进程 task. struct 结构 中 的 need_resched 是 
否 为 1 ( 非 0)。 因 此 ， 问 题 就 归结 为 当前 进程 的 need_resched 起 在 什么 情况 下 才 置 成 1 的 。 在 目前 版 
本 的 内 核 中 ， 在 单 CPU 的 条 件 下 ， 主 要 有 如 下 几 种 情况 : 

e ”在 时 钟 中 断 的 服务 程序 中 ， 发 岗 当 前 进程 (连续 ) 运行 的 时 间 过 长 。 

e HKE 个 睡眠 中 的 进程 时 ， 发 哉 被 刚 朴 的 进程 比 当前 进程 见 有 资格 运行 。 

e .个 进程 通过 系统 调用 改变 调度 政策 或 礼让 。 这 种 情况 实际 上 应 该 被 视 为 主动 的 、 自 愿 的 调 

度 ， 内 此 这 样 的 系统 调用 会 引起 立即 调 典 。 

先 看 第 -一 种 情况 。 在 前 一 节 ， 读 者 凯 看 到 ， 调 度 时 费 为 可 执行 进程 队 州 《 斌 绪 进 程 队 列 〉 中 的 每 
个 进程 都 计算 出 一 个 当时 的 权 值 。 对 村-- 般 交互 式 的 应 用 ， 其 数值 主要 取决 于 进程 剩 下 的 时 间 配 额 ， 
BE task struct 结构 中 的 一 个 计数 器 counter 的 当前 值 。 对 于 有 实时 要 求 的 进程 ， 也 就 是 调度 政策 为 
SCHED RR 或 SCHED FIFO 的 进程 ， 则 运行 资格 与 此 无 关 ， 并 且 都 有 非常 高 的 权 值 。 当 队列 中 所 有 
的 进程 均 为 交互 式 进程 ， 即 调度 政策 为 SCHED_OTHER 的 进程 ， 并 且 所 有 这 些 进程 都 用 完了 时 间 配 额 
时 ， 就 要 重新 计算 并 设置 每 个 进程 的 时 间 配 额 ， 其 数值 主要 取决 十 为 各 个 进程 设 定 的 优先 级 别 。 在 这 
行 中 ， 则 每 当 发 生 时 钟 中 断 时 都 要 递减 当前 进程 的 时 间 配 额 ， 使 当前 进程 的 运行 资格 逐渐 降低 ， 当 寺 
数 器 的 值 降 伯 0 时， 就 要 强制 进行 一 次 调 度 ， 测 夺 当 前 进程 的 运行 。 

在 第 3 章 的 “时 钟 中 断 ” 一 节 中 ， 恋 者 已 经 看 到 ， 在 时 钟 中 断 服务 程序 do_timer_interrupt( ) 中 要 调 
用 一 个 函数 do_timer( ), 并 已 浏览 过 这 个 琐 数 的 代 色 。 在 这 个 曙 数 中 ， 对 于 单 CPU 结构 〈 在 SMP 结构 
中 各 个 CPU 使 用 本 地 的 定时 器 ， 称 为 APIC 定时 器 ) 要 调用 另 一 个 函数 update_process_times( ) 米 调整 
当前 进程 与 时 间 有 关 的 一 些 运行 参数 ， 其 代码 在 kernel/sched.c 中 : 


[do_timer_interrupt( ) > do_timer( ) > update process times( )] 


575 /* 

576 * Called from the timer interrupt handler to charge one tick to the current 
577 * process. user_tick is 1 if the tick is user time, 0 for system. 
578 */ 

579 void update_process_times (int user tick) 

580 { 

581 struct task struct *p = current; 

582 int cpu = smp processor id( ), system = user tick 1; 

583 

584 update one process(p, user tick, system, cpu); 

585 if (p->pid) { 

586 if (--p->counter <= 0) | 

587 p-^?counter = 0; 

588 p->need resched = 1; 

589 } 

590 if (p->nice > 0) 

591 kstat.per cpu nice[cpu] += user tick; 

592 else 

593 kstat.per cpu user[cpu] +- user tick; 

594 kstat.per cpu system|cpu] += system; 
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595 | else if (local bh count(cpu) || local irq count(cpu) > 1) 
596 kstat.per cpu system[cpu] += system; 
597  ] 


只 要 不 是 0 号 进程 ， 就 从 当前 进程 的 计数 器 中 减 1。 当 计数 降 到 0 时 ， 就 将 task struct 结构 中 的 
need resched 置 成 1。 什 于 函数 中 其 他 的 操作 ， 包 括 update_one_process( )， 只 是 与 统计 信息 有 关 ， 我 们 
在 这 里 并 不 关心 ， 读 者 可 以 自己 阅读 。 


这 个 函数 的 代码 也 在 kernel/sched.c H: 


321 /* 

322 * Wake up a process. Put it on the run-queue if it’s not 
323 * already there. The “current” process is always on the 
324 * run-queue (except when the actual re-schedule is in 

325 * progress), and as such you re allowed to do the simpler 
326 * “current~>state = TASK RUNNING” to mark yourself runnable 
327 * without the overhead of this. 

328 */ 

329 inline void wake up process(struct task struct * p) 

330. - d 

331 unsigned long flags; 

332 

333 /* 

334 * We want the common case fall through straight, thus the goto. 
335 */ 

336 spin lock irqsave(&runqueue lock, flags); 

337 p-»state = TASK RUNNING; 

338 if (task_on_runqucue (p)) 

339 goto out; 

340 add to runqueue (p); 

341 reschedule idle(p); 

342 out: 

343 spin unlock irqrestore(&runqueue lock, flags); 

344 ] 


可 多， 所 调 “ 唤 醒 ”， 就 是 把 进程 的 状态 设置 成 TASK_RUNNING， 并 将 该 进程 挂 入 runqueue. CHI 
可 执行 进程 队列 )， 然 后 使 调用 函数 reschedule_idle( )。 对 十 单 CPU 结构 来 说 ， 这 个 函数 很 简单 : 


[wake up. process( ) > reschedule idle( )] 


198 /Pk 

199 * This is ugly, but reschedule idle( ) is very timing-critical. 
200 * We are cailed with the runqueue spinlock held and we must 
201 * not claim the tasklist lock. 

202 */ 


203 static FASTCALL (void reschedulc_idle(struct task struct * p)); 
204 
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205 static void reschedule idle(struct task struct * p) 
206 { 
207 #ifdef CONFIG SMP 


4 #4 #& a.a «4 «© 


286 Helse /* UP */ 


287 int this cpu = smp_processor id( ); 

288 struct task struct *tsk; 

289 

290 tsk = cpu curr(this cpu); 

29] if (preemption goodness(tsk, p, this cpu) > 1) 
292 tsk-^need resched = 1; 

293 Hendif 

294 } 


其 目的 是 将 所 唤醒 的 进程 与 当前 进程 之 间作 一 比较 。 如 果 所 唤醒 的 进程 运行 资格 更 高 就 将 当前 进 
程 的 need_resched paki WAR 1. AZ preemption_goodness( ) 汁 算 两 个 进程 综合 权 值 的 差 ， 其 代 个 也 是 
在 sched.c 中 定义 的 : 


[wake_up_process( ) > reschedule idle( ) > preemption_goodness( )] 


189 /* 
190 * the ' goodness value' of replacing a process on a given CPU. 
191 * positive value means 'replace', zero or negative means 'dont'. 
192 */ 
193 static inline int preemption goodness (struct task struct * prev, 
struct task struct * p, inti cpu) 
194 { 
195 return goodness(p, cpu, prev->active mm) - 
goodness(prev, cpu, prev >active mm); 
196 I 


读者 也 许 注意 到 了 ， 在 reschedule_idle( ) 中 的 当前 进程 指针 并 不 是 通过 宏 操作 current MA 
AS ERE cpu_curr 得 到 的 。 这 其 者 有 什么 区 别 昵 ?” 先 来 看 看 cpu, curr 的 定义 ， 那 也 是 在 sched.c HE 
义 的 : 


103 #define cpu_curr (cpu) aligned datal (cpu) ]. schedule data. curr 


不 知 读者 是 否 记得 ， 这 是 在 schedule( ) 中 挑选 了 要 进入 运行 但 尚未 切换 之 前 设置 的 ，( 见 sched.c, 
586 行 )。 所 以 ， 在 人 部 分 时 间 帆 这 是 与 current 一 致 的 ， 但 此 在 完成 切换 之 前 的 … 小 段 时 间 里 ， 这 个 进 
程 并 不 是 真正 的 当前 进程 。 可 是 ， 将 刚 唤醒 的 进程 与 这 个 进 称 相 比 显 然 更 并 确 ， 因 为 当 CPU 要 从 系统 
空间 返 辣 到 用 户 空 间 时 ， 这 个 进程 已 经 “ 仁 位 ”了 。 

第 一 种 情况 ， 实 际 上 应 沪 被 视 为 自愿 的 让 出 。 介 是 ， 从 内 核 代 但 的 形 代 土 看 ， 也 是 通过 相同 的 办 
法 , 将 当前 进程 的 need resched 标志 置 为 1， 使 得 企 进 程 返回 用 户 空 间 前 多发 生 调 度 ， 所 以 也 放 在 这 一 
节 中 。 此 类 系统 调用 有 岗 个 ，-- 个 是 sched_setscheduler( ), 另 一 个 是 sched yield( )。 系 统 调用 
sched_setscheduler( ) 的 作用 是 改变 进程 的 润 度 政策 。 用 户 登 录 旬 系统 后 ， 第 一 个 进程 的 适 几 油 度 政 集 为 
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SCHED_OTHER， 也 就 是 默认 为 无 实时 要 求 的 交互 式 应 用 。 在 通过 fork( ) 创 建新 进程 时 则 将 此 进程 适 
用 的 调度 政策 遗传 给 了 了 了 进程。 但是， 用 户 可 以 通过 系统 调用 sched_setscheduler( ) 改 变 其 适用 调度 政 
策 。 内 核 代码 中 对 此 系统 调用 的 实现 sys_sched_setscheduler( ) 在 kernel/sched.c 中 : 


957 
958 
959 
960 
961 
962 
963 
964 
965 
966 


887 
888 
889 
890 
891 
892 
893 
894 
895 
896 
897 
898 
899 
900 
901 
902 
903 
904 
905 
906 
907 
908 
909 
910 
911 
912 
913 
914 
915 
916 
917 
918 


asmlinkage long sys_sched_setscheduler (pid_t pid, int policy, 


{ 
} 


struct sched_param *param) 


return setscheduler(pid, policy, param); 


asmlinkage long sys sched setparam(pid t pid, struct sched param *param) 


{ 
} 


return setscheduler (pid, -1, param); 


static int setscheduler(pid t pid, int policy, 


{ 


struct sched param *param) 


struct sched param lp; 
struct task struct *p; 
int retval; 


retval = -EINVAL; 
if (!param || pid < 0) 
goto out nounlock; 


retval = -EFAULT; 
if (copy from user(&ip, param, sizeof(struct sched param))) 
goto out nounlock; 


/* 

* We play safe to avoid deadlocks. 
*/ 

read lock irq(&tasklist lock); 
spin lock(&runqueue lock); 


p = find process by pid(pid)， 


retval = -ESRCH; 
if (!p) 
goto out unlock; 


if (policy < 0) 
policy = p-?policy; 
else | 
retval = -EINVAL; 
if (policy != SCHED FIFO && policy != SCHED RR && 


li 
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919 policy != SCHED OTHER) 

920 goto out un]ock; 

921 ] 

922 

923 /* 

924 * Valid priorities for SCHED FIFO and SCHED RR are 1..99, valid 
925 * priority for SCHED OTHER is 0. 

926 */ 

927 retval = -EINVAL; 

928 if (lp.sched priority < 0 || 1p.sched priority > 99) 
929 goto out unlock; 

930 if ((poliey == SCHED OTHER) != (lp.sched priority == 0)) 
931 goto out unlock; 

932 

933 retval = -REPERM; 

934 if ((policy == SCHED FIFO || policy == SCHED RR) && 
935 'capable(CAP SYS NICE)) 

936 goto out unlock; 

937 if ((current-»euid != p-»euid) && (current-»euid != p->uid) && 
938 !capable(CAP SYS NICE)) 

039 goto out unlock; 

940 

941 retval = 0; 

942 p policy = policy; 

943 prt priority = lp. sched priority; 

944 if (task on runquceue (p)) 

945 move first runqueue(p); 

946 

947 current—>need resched = 1; 

948 

949 out unlock: 

950 spin unlock(&runqueue lock); 

95] read unlock irq(&tasklist lock); 

952 

953 out_nounlock: 

954 return retval; 

955 } 


从 代码 中 可 以 看 出 ，Linux 内 核 有 码 种 不 同 的 调度 政策 ， 即 SCHED FIFO. SCHED RR 以 及 
SCHED_OTHER。 每 个 进程 都 必然 采取 其 中 之 - ( 见 918 行 )。 除 调度 政策 外 还 有 一 些 参 数 ， :个 进程 
的 调度 政策 与 调度 参数 结合 在 一 起 就 决定 了 它 受 内 核 调 度 的 种 种 特性 。 

这 里 的 capable( ) 是 个 inline A, ‘KYA current->cap_effective， 看 某 个 标志 位 是 否 为 !， 也 就 是 
进程 是 否 允 许 进 行 某 种 特定 的 操作 。 文 件 include/inux/capabilityh 中 定义 了 所 有 的 标志 位 。 函 数 
move_first_runqueue( ) 将 进程 从 可 执行 进程 队列 的 当前 位 置 移 到 队列 的 前 部 (如果 该 进程 在 可 执行 进程 
队列 中 的 话 )， 使 其 在 调度 时 〈 相 对 于 具有 相同 送行 资格 的 进程 ) 处 于 较为 有 利 的 地 位 。 最 后 将 当前 进 
程 的 need_resched 设 成 1， 强制 发 生 … 次 调度 。 
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为 一 个 系统 调用 sched_yield( ) 使 运行 中 的 进程 可以 为 其 他 进程 “让 路 ”， 但 并 不 进入 睡眠 。 内 核 中 
的 实现 sys sched yield( ) 也 在 sched.c 中 : 


1019 asmlinkage long sys_sched_yield (void) 


1020 { 

1021 /* 

1022 * Trick. sched yield( ) first counts the number of truly 
1023 * 'pending runnable processes, then returns if it's 
1024 * only the current processes. (This test does not have 
1025 * to be atomic.) In threaded applications this optimization 
1026 * gets triggered quite often. 

1027 */ 

1028 

1029 int nr pending - nr running; 

1030 

1031 &if CONFIG SMP 

1032 int i; 

1033 

1034 // Substract non-idle processes running on other CPUs. 
1035 for (i = 0; i € smp num cpus; i++) 

1036 if (aligned datali].schedule data. curr !- idle task(i)) 
1037 nr pending--; 

1038 Helse 

1039 // on UP this process is on the runqueue as well 

1040 nr pending--; 

1041 #endi f 

1042 if (nr_pending) { 

1043 /* 

1044 * This process can only be rescheduled by us, 

1045 * so this is safe without any locking. 

1046 */ 

1047 if (current->policy == SCHED OTHER) 

1048 current—>policy |= SCHED YIELD: 

1049 current 2need resched = 1; 

1050 } 

1051 return 0; 

1052 } 


45 ae il BEBE S PBT AS [FR] Je. 3x BEA S DUE IA Bu ERE TE RT BUT IER BA FR BEES AN EU 
蛤 ,“ 礼 让 ”只 有 在 系统 中 还 有 其 他 就 绪 进 程 存在 的 情况 下 才 有 意义 ， 所 以 这 里 先 要 检查 nr. pending, 
如 正在 等 待 运行 的 进程 数量 。 代码 中 将 current->policy 中 的 SCHED_YIELD 标志 置 为 1, 这 个 标志 位 在 
紧 接着 的 调度 中 就 清 成 0。 有 关 的 代码 在 __schedule_tail ( ) 中 ， 这 是 在 schedule( ) 中 通过 switch_to( ) 切 
换 进程 以 后 调用 的 。 

与 主动 调度 相 比 ， 通 过 将 当前 进程 的 need resched 标志 置 1 以 强制 进行 的 调度 有 - -个 重要 的 不 同 ， 
那 就 是 从 发 现 有 调度 的 必要 到 调度 真正 发 生 有 个 延迟 ， 叫 做 “调度 延迟 (dispatch latency) ”。 在 前 列 
的 三 种 条 件 中 ， 第 三 种 〈 改 变调 度 政 策 或 礼让 ) 对 时 间 并 不 敏感 。 第 一 种 虽 是 由 时 间 引 起 ， 但 实际 上 
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也 并 无 实时 的 要 求 。 而 第 二 种 ， 就 是 当 唤 醒 一 个 进程 并 发 现 该 进程 的 权 值 比 当 前 进程 更 高 ， 也 就 是 更 
为 紧急 时 ， 这 就 有 时 间 划 求 了 。 

唤 柄 一 个 睡眠 中 的 进程 有 两 种 来 源 。 -种 是 进程 问 通信 , 例如 一 个 进程 向 另 一 个 进程 发 送 了 -个 信 
号 ， 污 者 已 经 在 系统 调用 exit( ) 一 节 中 看 到 过 。 进 程 间 通 信 当 然 不 局 限于 信和 号 发 送 ， 其 他 的 例子 记 以 后 
读者 在 “进程 间 通 们 ”中 会 看 到 的 通过 管道 、 报 文 队 列 以 及 socket 等 于 段 进行 的 通信 。 民 型 的 情景 融 
是 在 client/server 方式 的 应 用 中 。- “个 进程 在 睡眠 中 等 待 来 白 其 他 进程 的 服务 请 求 ， 而 当 其 他 进程 通过 
某 种 手段 向 其 发 送 一 个 请 求 时 就 要 将 其 从 睡眠 中 唤醒 。 向 第 二 种 米 源 则 通常 更 为 紧急 ， 那 就 是 某 个 事 
件 的 发 生 引 起 了 一 次 中 断 ， 在 中 断 服务 程序 中 或 bh 也 数 中 由 村 该 事件 的 发 生 而 要 将 某 个 进程 (或 若干 
个 进程 ) 唤醒 ， 使 其 可 以 在 用 广 空间 对 事件 作 进 一 步 的 处 理 。 这 种 情况 往往 有 哆 高 的 时 间 要 求 。 这 里 
有 两 个 问题 ， 第 -是 当 调 度 发 生 时 被 唤醒 的 进程 是 否 一 定 会 被 挑选 上 。 这 一 点 由 十 SCHED_ FIFO 和 
SCHED RR 两 种 调度 政策 的 设立 和 优先 级 的 使 用 而 有 了 保证 。 第 二 就 是 到 底 什么 时 候 (多 少 微 秒 之 内 ) 
会 发 生 调 度 ， 这 一 点 在 月 前 的 linux 内 核 中 是 没有 保证 的 ， 而 上 只 能 从 统计 的 、 平 均 的 角度 看 是 否 能 满足 
条 件 。 


48 系统 调用 nanosleep( ) 和 pause( ) 


出 于 种 种 床 因 ， 运 行 中 的 进程 常常 需要 主动 进入 睡眠 状态 ， 并 发 起 “次 调度 让 出 CPU。 这 一定 要 
通过 系统 调用 ， 或 者 在 系统 调用 内 部 才能 做 到 。 注 意 ， 前 一 节 中 讲 到 的 系统 调用 sched_yield( ) 与 此 有 
所 不 同 ， 那 只 目 让 内 核 进行 一 次 调度 ， 肖 当前 进程 继续 保持 可 运行 状况 。 而 这 里 所 说 的 是 ， 当 前 进程 
进入 睡 甩 ,也 就 是 将 进程 的 状态 变 成 TASK_INTERRUPTIBLE 或 TASK_UNINTERRUPTIBLE， 并 从 可 
执行 队列 中 蚁 钩 ， 调 度 的 结果 一 定 是 其 他 进程 得 以 运行 。 并 占 ， 进 称 一 旦 进入 睡眠 状态 ， 就 需要 经 过 
唤醒 才能 将 状态 恢复 成 TASK_RUNNING， 并 加 到 可 执行 队列 中 。 

这 种 主动 在 一 段 时 间 内 放 齐 运行、 让 出 CPU 的 行动 可 以 分 成 两 种 。 一 种 是 隧 合 的 ， 个 销 定 的 ,不 
是 说 暂时 让 出 CPU 的 可 能 性 隐 含 在 其 他 行为 之 中 。 此 时 让 出 CPU 本 身 并 不 是 县 的 ， 而 上 只 是 在 真正 的 
目的 一 时 不 能 达到 ， 必 须 等 待 时 才 出 于 公德 心 ， 把 CPU 暂时 让 出 米 。 这 样 的 例子 有 read( )、write( 小 
open(). send(). recvfrom( ) 等 等 ， 几 乎 所 有 与 外 设 有 关 的 系统 调用 孝 有 可 能 在 执行 的 过 程 中 受阻 而 进 
入 睡眠 、 让 出 CPU。 另 - .种 是 咀 箭 的， 月 的 就 在 进入 睡 眼 状态 。 这 样 的 系统 调用 主 归 有 钠 个 ， 一 个 是 
nanosleep( )， 另 一 个 是 pause( )。 

系统 调用 nanosleep( ) 使 当前 进程 进入 睡眠 状态 ， 但 是 在 指定 的 时 间 以 后 由 内 核 将 该 进程 唤醒 ， 所 
以 常常 用 来 实现 周期 性 的 应 用 。 程 序 员 们 常常 使 用 的 slee ) 是 个 库 函 数 ， 实 际 上 是 通过 系统 调用 
nanosleep( ) 来 实现 的 。 

系统 调用 pause( ) 也 使 当前 进程 进入 睡眠 ， 可 是 与 时 间 巨 关 ， 要 到 接收 到 :个 信号 时 才 被 唤醒 ， 所 
以 常常 用 来 协调 若 十 进程 的 运行 。 读者 在 前 儿 节 中 看 到 的 系统 调用 wait4( )， 类 似 的 还 有 wait3( ), 实际 
上 可 以 看 作 是 pause() 的 “种 特例 ， 因 为 它 此 在 接收 到 特定 的 信号 SIGCHLD 并 及 满足 若干 特 殊 条 件 时 
才 被 唤醒 。 

还 有 -种 特殊 情况 ， 当 前 进程 接收 到 了 信号 SIGSTOP， 然 后 在 当前 进程 从 系统 空间 返回 到 用 户 空 
间 之 前 (不 管 是 因为 系统 调用 、 中 断 或 是 异常 )， 就 会 在 do_signal( ) 中 调用 schedule( )， 进 程 状态 变 成 
TASK_STOPPED， 并 从 可 执行 队列 中 脱 钓 ， 一 点 要 到 收 人 到 一 个 SIGCONT 信号 时 才能 恢复 到 可 运行 状 
态 。 这 种 情况 实际 上 是 强制 性 的 ， 但 出 于 在 形式 上 上 当前 进程 在 do_signal( ) 的 过 程 中 “主动 ”调用 
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schedule( )， 所 以 没有 把 它 放 在 强制 性 调度 一 节 中 ， 我 们 在 讲 进程 间 通 信 时 还 要 讲 到 这 个 话题 。 
这 一 节 中 我 们 集中 介绍 nanosleep( ) 和 pause( ) 了 两 个 系统 调用 。 
系统 调用 nanosleep( ) 在 内 核 小 的 实现 为 sys_nanosleep( )， 共 代码 在 kernel/sched.c 中 ， 


797 asmlinkage long sys_nanosleep(struct timespec *rqtp, struct timespec *rmtp) 
798 { 

799 struct timespec t; 

800 unsigned long expire; 

801 

802 if(copy from user(&t, rqtp, sizeof(struct timespec))) 

803 return -EFAULT; 

804 

805 if (t.tv nsec >= 1000000000L || t. tv_nsec < 0 |] t. tv sec < 0) 
806 return -EINVAL:; 

807 

808 

809 if (t.tv sec == 0 && t.tv nsec <= 2000000L && 

810 current— policy != SCHED OTHER) 

811 { 

812 /* 

813 * Short delay requests up to 2 ms will be handled with 
814 * high precision by a busy wait for all real-time processes. 
815 * 

816 * [ts important on SMP not to do this holding locks. 
817 */ 

818 udelay((t.tv nsec + 999) / 1000); 

819 return 0; 

820 } 

821 

822 expire = timespec_to_jiffies(&t) + (t.tv sec || t.tv nsec); 
823 

824 current-?5state = TASK INTERRUPTIBLE; 

825 expire - schedule timeout (expire); 

826 

827 if (expire) | 

828 if (rmtp) { 

829 jiffies to timespec(expire, &t); 

830 if (copy to user(rmtp, &t, sizeof(struct timespec))) 
831 return —EFAULT; 

832 } 

833 return -EINTR; 

834 j 

835 return 0; 

836 ] 


FE pk BY sleep ) 的 参数 是 以 秒 为 单位 的 整数 ， 而 nanosleep( )8:29 AMI WYN timespec 结构 指针 。 第 
一 个 指针 rqtp， 指 向 给 定 所 需 睡 眠 时 间 的 数据 结构 ; 第 二 个 指针 rmtp， 则 指向 返回 剩余 睡眠 时 间 的 数 
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据 结 构 。 这 是 因为 睡眠 中 的 进程 上 有 可 能 因 接 收 到 信号 而 提前 被 唤醒 ， 这 时 候 水 数 返回 一 1 并 在 rmtp 所 
指 的 数据 结构 中 返回 剩余 的 时 间 (如果 mp 不 是 NULL)， 然 后 进程 可 以 决定 是 否 再 次 睡眠 把 时 间 用 
36s 
数据 结构 timespec 的 定义 在 include/linux/time.h FP: 


9 struct timespec { 


10 time t tv sec; /* seconds */ 
11 long tv nsec; /* nanoseconds */ 
12. HH 





这 里 的 tv_sec， 单 位 为 秒 ， 而 tv_nsec 为 毫 微 秒 ， 也 就 是 10 秒 。 当 然 ， 这 并 不 表示 睡眠 时 间 的 精 
度 可 以 达到 澡 微 秒 的 量 级 。 以 前 讲 过 ， 在 典型 的 内 核 配 置 中 时 钟 中 断 的 频率 Hz 为 100 CW 
include/asm-i386/param.h)， 也 就 起 说 时 钟 中 断 的 周期 为 10 毫秒 。 这 意味 着 ， 如 果 进 程 进入 睡眠 而 循 正 
常 途径 由 时 钟 中 断 服务 程序 来 唤醒 的 话 ， 那 就 只 能 达到 10 毫秒 的 精度 。 正 因为 这 样 ， 才 有 809—821 
行 的 特殊 处 理 ， 那 就 是 如 果 要 求 有 睡眠 的 时 间 小 于 2 毫秒 ， 而 要 求 睡眠 的 进程 又 是 个 有 实时 要 求 的 进程 
(其 调度 政策 为 SCHED_FIFO 或 SCHED_RR)， 者 就 不 能 真 的 让 这 个 进程 进入 睡眠 ， 因 为 那样 有 可 能 
要 到 10 毫秒 以 后 才能 将 其 唤醒 ， 对 于 实时 应 用 的 进程 来 说 这 是 不 能 接受 的 。 所 以 ， 在 这 样 的 情况 下 能 
提供 的 只 是 延迟 而 不 是 睡眠 。 这 里 由 一 个 宏 操 作 udelay( ) 通 过 计数 来 实现 延迟 ， 其 定义 在 
include/asm-i386/delay.h 中 : 


16 Hdefine udelay (n) ( builtin constant p(n) ? \ 
17 ((n) > 20000? bad udelay( ) : | const udelay((n) * Oxl0c6u1)) : \ 
18 .. udelay (n)) 


除 若干 预定 的 常数 以 外 ， 都 是 通过 函数 _udelay( ) 完 成 延迟 ， 其 代 但 在 arcb/i386/lib/delay.c 中 。 我 
们 把 涉及 的 各 个 函数 逐 层 列 在 下 面 ， 供 读者 阅读 : 


[sys_nanosleep( ) > udelay( ) > __udelay( )] 


76 void | udelay(unsigned long usecs) 


77 { 
78 ...const udelay(usecs * 0x000010c6); /* 2#*32 / 1000000 */ 
79 ] | 


[sys nanosleep( ) > udelay( ) > __udelay( ) ».. const udelay( )] 


67 inline void | const udelay (unsigned long xloops) 

68 { 

69 int dO: 

70 __asm__ ("mull %0” 

71 ;"zd" (xloops), "-s&a" (d0) 

12 ;^1" (xloops), "0^ (current cpu data. loops per jiffy)); 
73 __delay(xloops * HZ); 

74 } 
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常量 current_cpu_data.loops_per_sec 的 数值 取决 于 具体 的 CPU, 系统 急 始 化 时 出 内 核 根据 采集 的 数 
据 确 定 ， 并 保存 在 数据 结构 current. cpu, data "P: 


[sys_nanosleep( ) > udelay( ) > __udelay( ) > __const_udelay() ».. delay( )] 


59 void __delay(unsigned long loops) 


60 { 

61 if(x86 udelay tsc) 

62 | rdtsc delay (loops); 
63 else 

64 ... loop. delay (loops); 
65 } 


如 果 CPU 支持 基于 硬件 的 延迟 ， 孝 么 就 通过 __rdtsc_delay( ) 完 成 所 需 的 延迟 ， 否 则 由 软件 通过 计 
数 实现 。 


[sys nanosleep( ) > udelay( ) > __ udelay( ) > | const udelay( ) > ___delay() > __ loop. delay( )] 


42 [* 

43 * Non TSC based delay loop for 386, 486, MediaGX 
A4 */ 

45 

46 static void | loop delay (unsigned long loops) 
47 { 

48 int dO; 

49 asm __ volatile 《 

50 “\tjmp lf\n” 

51 ^. align 16\n” 

52 "1:Ntjmp 2f\n” 

53 ^. align 16\n” 

54 ^2:Xtdec] %0\n\tjns 2b” 

55 :"-&a" (d0) 

56 :7“0” (loops)); 

of. d 


读者 对 于 嵌入 C 代 码 的 汇编 语句 已 经 不 阴 生 了 ， 所 以 这 里 不 再 解释 。 从 这 段 代 码 中 可 以 看 出 ， 
udelay( ) 是 通过 计数 循环 来 达到 延迟 的 。 也 就 是 说 ， 这 种 情况 下 当前 进程 并 不 真 的 进入 睡眠 ， 并 不 让 出 
CPU， 而 只 是 道 过 循环 来 消磨 掉 一 些 时 间 。 这 当然 不 是 个 好 兴 法 ， 但 对 于 有 实时 要 求 的 进程 也 只 好 不 
得 已 而 为 之 。 再 说 ， 即 使 对 于 有 实时 小 求 的 进程 ， 只 要 延 巡 的 时 间 超 过 2 上 毫秒， 也 不 用 通过 这 种 办 法 来 
实现 。 可 是 ， 为 什么 会 有 这 么 短 的 延迟 要 求 昵 ?这 一 般 是 与 外 设 操作 相 联 系 的 ， 有 些 外 设 要 求 连续 两 
次 操作 之 间 的 时 间 间 隅 不得 小 于 某 个 特定 值 ， 所 以 就 有 了 这 么 短 的 延 述 要 求 。 

回 到 sys nanosleep( ) 的 代码 中 。 对 十 正常 的 睡眠 要 求 ， 先 调用 timespec_to_jiffies( )， 将 数据 结构 t 
中 的 数值 换算 成 时 钟 中 断 的 次 数 ， 换 算 的 方法 在 time.h 中 ， 我 们 把 它 留 给 读者 目 己 辕 读 (time.h): 


[sys_nanosleep( ) > timespec_to_jiffies( )] 
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17 /* 

18 * Change timeval to jiffies, trying to avoid the 

19 * most obvious overflows.. 

20 * 

2l * Ànd some not so obvious. 

22 * 

23 * Note that we don t want to return MAX LONG, because 
24 * for various timeout reasons we often end up having 
25 * to wait "jiffies*l'/ in order to guarantee that we wait 
26 * at least “jiffies” ~ so "jiffies*l" had better still 
27 * be positive. 

28 */ 

29 #define MAX JIFFY OFFSET ((QUL >> 1)-1) 

30 

ol static __inline__ unsigned long 

32 timespec to jiffies(struct timespec *value) 

33 [ 

34 unsigned long sec = value-^tv sec; 

35 long nsec = value->tv_nsec; 

36 

37 if (sec >= (MAX JIFFY OFFSET / HZ)) 

38 return MAX JIFFY OFFSET; 

39 nsec += 1000000000L / HZ ~ 1; 

40 nsec /- 1000000000L / HZ; 

4] return HZ * sec * nsec; 

42  ] 


JER, HTH sys nanosleep( ) 中 的 822 77 M(t.tv_sec HE ttv, nsec) f KARER, FHA 1 或 者 0。 

然后 , 将 当前 进程 的 状态 改 为 TASK_INTERRUPT 并 调用 schedule timeout( ) 进 入 睡 虐 。 以 前 讲 过 ， 
睡眠 状态 TASK_INTERRUPT 与 TASK_UNINTERRUPT 的 区 别 在 于 后 者 在 进程 接收 到 信和 与 时 不 会 被 唤 
BE. PRX schedule timeout( ) 的 代码 也 在 sched.c P: 


[sys_nanosleep( ) > schedule timeout( )] 


369 signed long schedule timeout (signed long timeout) 


370 { 

37i struct timer list timer; 

372 unsigned long expire; 

373 

374 switch (timeout) 

375 { 

376 case MAX SCHEDULE TIMEOUT: 

377 /* 

378 * These two special cases are useful to be comfortable 
319 * in the caller. Nothing more. We could take 

380 * MAX SCHEDULE TIMEOUT from one of the negative value 
381 * but I’ d like to return a valid offset (5-0) to allow 
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382 * the caller to do everything it want with the retval. 
383 */ 

384 schedule( ) ; 

385 goto out; 

386 default: 

387 /* 

388 * Another bit of PARANOID. Note that the retval will be 
389 * 0 since no piece of kernel is supposed to do a check 
390 * for a negative retval of schedule timeout( ) (since it 
391 * should never happens anyway). You just have the printk( ) 
392 * that will tell you if something is gone wrong and where. 
393 */ 

394 if (timeout < 0) 

395 { 

396 printk(KERN ERR "schedule timeout: wrong timeout ^ 
397 “value lx from %p\n”, timeout, 

398 . builtin return address (0)); 

399 current-?state = TASK RUNNING; 

400 goto out; 

401 } 

402 j 

403 

404 expire = timeout + jiffies; 

405 

406 init timer (&timer) ; 

407 timer. expires = expire; 

408 timer. data = (unsigned long) current; 

409 timer. function = process timeout; 

410 

411 add timer(&timer) : 

412 schedule( ); 

413 del timer sync(&timer); 

414 

415 timeout = expire - jiffies; 

416 

417 out: 

418 return timeout < 0 ? 0 : timeout: 

419 } 


在 内 核 中 把 时 钟 中 断 的 次 数 作 为 计时 的 统 BE, 并 给 时 钟 中 断 之 间 的 间隔 起 了 个 名 字 册 做 “jiffy” 
“瞬间 ”的 意思 )。 与 此 相应 ， 内 核 中 设置 了 一 个 全 局 的 计数 器 jiffies， 用 来 对 系统 和 白 初 始 化 以 来 时 钟 
中 断 的 次 数 计 数 。 所 以 ， 在 调用 schedule_timeout( ) 之 前 把 需要 睡眠 的 时 间 先 换算 成 时 钟 中 断 的 数量 ， 
把 这 个 数量 与 当前 的 jiffies 相 加 就 得 到 了 “到 点 ”的 时 间 。 但 是 ， 当 所 要 求 的 时 间 太 长 ， 长 到 不 能 
市 符号 整数 表达 时 〈 其 实 是 最 人 的 正 数 减 1， 见 前 面 sys_nanosleep( ) 函 数 代码 中 对 timespec_to_jiffies( ) 
的 注解 以 及 代码 中 的 第 822 17), 就 返 辐 一 个 常数 MAX_JIFFY_OFFSET。 这 个 常数 在 schedule_timeout( ) 
中 被 视 作 “无 限期 ” 所 以 在 384 行 中 调用 schedule( ) 就 完事 了 。 既 然 是 无 限期 睡眠 ， 内 核 就 不 承担 按 
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时 将 其 唤醒 的 责任 ， 这 个 进程 要 … 直 睡眠 到 有 另 … 个 进程 向 其 发 送 一 个 信 与 时 才 会 被 唤醒 。 

函数 schedule_timeout( ) 的 返回 值 为 进程 被 唤醒 时 剩 下 的 还 未 睡 完 的 时 间 。 我 们 来 看 看 当 调 用 参数 
I MAX JIFFY. OFFSET 时 的 返回 值 。 在 这 种 情况 下 ， 当 进程 被 唤醒 而 从 schedule( ) 返 问 时 就 通过 goto 
语句 转 到 标号 out 处 ， 而 变量 timeout 的 数值 在 这 上 整个 过 程 中 并 林 改 变 , 仍旧 是 MAX_JIFFY_OFFSET,， 
这 体现 了 从 无 限 减 去 有 限 后 结果 还 是 无 限 的 原理 。 

当 要 求 的 睡眠 时 间 在 规定 的 范围 以 内 时 ， 内 核 就 要 承担 起 按时 将 此 进程 唤醒 的 责任 了 。 为 此 目的 ， 
内 核 此 设置 好 一 个 “定时 器 ” 也 就 是 这 里 的 数据 结构 timer， 并 将 其 挂 入 一 个 定时 器 队列 ， 而 每 次 时 
钟 中 断 时 都 要 检查 这 些 定 时 器 是 否 到 点 。 数 据 结构 timer 的 类 型 为 timer_list， 是 在 include/linux/time.h 
中 定义 的 ， 详 见 第 3 章 中 的 “时 钟 中 断 ” 一 节 。 我 们 在 那里 提 到 了 这 个 数据 结构 及 其 作用 ， 但 没有 深 
入 加 以 讨论 ， 这 是 因为 那 时 我 们 还 没有 讲 过 进程 调度 及 有 关 的 机 制 ， 很 难 真 正 讲 清楚 。 而 现在 ， 结 合 
schedule_timeout( ) 的 代码 ， 就 可 以 把 整个 过 程 和 机 制 讲 清楚 了 。 这 里 ， 在 init_timer( ) 以 后 ， 将 定时 器 
的 到 点 时 间 设 置 成 计算 得 到 的 expire。 到 点 时 要 执行 的 函数 则 为 process_timeout( )， 等 ~ PRAM MSE 
到 它 到 底 干 些 什 么 了 。 准 备 传 给 process_timeout( ) 的 参数 为 current， 读 者 应 该 还 记得 ， 这 实际 上 是 一 
个 得 到 当前 进程 task_struct 指针 的 宏 操 作 。 读 者 也 许 会 问 ， 为 什么 个 干 瞻 把 数据 结构 中 的 变量 data 改 
成 task struct 指针 ? 这 是 因为 这 样 更 为 灵活 、 通 用 ， 再 说 到 点 时 归 调 用 的 函数 也 并 不 总 是 与 茶 个 进程 
直接 有 关 的 。 

函数 add_timer( ) 将 timer 持 入 定时 器 队列 ， 其 代码 在 timer.c 中 !: 


[sys nanosleep( ) > schedule timeout( ) > add_timer( )] 


176 void add timer(struct timer list *timer) 


177 df 

178 unsigned long flags; 

179 

180 spin lock irqsave(&timerlist lock, flags); 

181 if (timer pending(timer)) 

182 goto bug; 

183 internal add timer (timer); 

184 spin unlock irgrestore(&timerlist lock, flags); 
185 return; 

186 bug: 

187 spin unlock irgrestore(&timerlist lock, flags); 
188 printk(/bug: kernel timer added twice at 9p. W^, 
189 builtin return address (0)); 

190 ] 


核心 的 操作 是 存 intemal add. timer( ) 完 成 的 ， 这 里 多 了 Jz “包装 ” 日 的 是 将 核心 的 队列 操作 保 
PEK. Hi spin_lock_irgsave( EK PETRA], gi spin. unlock irqsave( ) 则 在 操作 以 后 再 恢复 原状 。 男 
数 internal_add_timer( ) 的 代码 还 是 在 同一 文件 中 Ctimer.c): 


[sys_nanosleep( ) > schedule timeout( ) > add_timer( ) > internal_add_timer( )] 


122 static inline void internal_add_timer (struct timer_list *timer) 
123 { 
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124 
125 
126 
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129 
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143 
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145 
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160 


} 


第 4 章 进程 与 进程 调度 
/* 


* must be cli-ed when calling this 

*/ 
unsigned long expires = timer >expires; 
unsigned long idx = expires - timer jiffies: 
struct list head * vec; 


= expires & TVR MASK: 
vec = Lvl. vec + i; 
} else if (idx < 1 << (TVR BITS + TVN BITS)) { 
int i = (expires >> TVR_BITS) & TVN_MASK; 
vec = tv2.vec + i; 
} else if (idx < L << (TVR BITS + 2 * TVN_BITS)) { 
int i = (expires >> (TVR BITS + TVN BITS)) & TVN MASK; 
vec - tvà.vec + i; 
} else if (idx < 1 << (TVR BITS + 3 * TVN BITS)) ( 
int i = (expires >> (TVR BITS + 2 * TVN BITS)) & TVN MASK; 
vec = tv4. vec + i; 
] else if ((signed long) idx < 0) { 
/* can happen if you add a timer with expires == jiffies, 
* or you set a timer to go off in the past 
*/ 
vec — tv].vec + tvl. index; 
| else if (idx <= OxffffffffUL) | 
int i = (expires >> (TVR BITS + 3 * TVN_BITS)) & TVN MASK: 
vec = tv5.vec + i; 
} else { 
/* Can only get here on architectures with 64-bit jiffies */ 
INIT LIST HEAD (&timer—>list) ; 
return; 


if (idx < TVR SIZE) { 
int i 


/* 

* Timers are FIFO! 

*/ 

list add(&timer— list, vec—>prev) ; 


了 哪 一 总， 同时 也 是 设置 定时 器 的 基准 点 ， 其 数值 有 可 能 会 不 同 于 jiffies， 等 会 儿 我 们 就 会 看 到 它 的 


作用 。 


在 进一步 深入 到 internal_add_timer( ) 的 代码 中 去 之 前 ， 有 必要 先 大 致 介绍 一 下 定时 器 队列 的 组 织 。 
本 来 ， 最 简单 的 办 法 是 将 所 有 的 timer Hist 结构 ， 即 定时 器 ， 按 “到 点 ”的 先后 链接 在 一 起 成 为 一 个 队 
齐 ， 然 后 每 当 jitfies 改 安 时 就 从 该 队列 的 头 部 开始 乏 个 检查 并 处 理 这 些 数据 结构 ， 直 到 发 现 第 一 个 尚 
本 到 点 的 定时 器 时 就 可 以 结 训 了 。 可 是 这 样 有 个 缺点 ， 就 是 每 当 娄 将 一 个 新 的 定时 器 加 入 到 这 个 队列 
中 去 时 ， 要 在 队列 中 进行 线性 搜索 ， 寻 找 适 沽 的 链 入 位 置 ， 在 最 坏 的 情况 下 上 旨 扫 描 过 队列 中 所 有 的 数 
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据 结构 。 当 队列 中 的 成 员 数 量 有 可 能 很 大 时 ， 这 种 方案 的 效率 就 不 能 令 人 满意 了 。 学 过 数据 结构 与 算 
法 的 读者 可 能 马上 会 想到 可 以 通过 “杂凑 ”(hash) 来 改善 效率 。 也 就 是 说 ， 将 这 些 定时 器 数据 结构 组 
织 成 一 个 队列 数组 ， 或 者 说 队列 的 阵列 ， 而 不 是 “个 单一 的 队列 ， 然 后 根据 等 个 定时 器 到 点 的 时 间 经 
过 杂凑 计算 决定 应 该 将 其 链 入 到 哪 一 个 队列 中 。 这 样 ， 通 过 将 定时 器 分 散 链 入 到 不 同 的 队列 中 ， 器 可 
以 减 小 各 个 队列 的 半 均 长 度 ， 从 而 提高 效 洲 。 最 简单 的 杂 凌 计算 英 过 于 从 数值 中 抽取 最 低 的 大 十 位 ， 
也 就 是 通过 “与 ”运算 将 数值 中 的 高 位 译 蔽 掉 ， 这 实际 上 相当 于 将 数值 除 以 一 个 2 的 整数 次 暴 以 后 取 
其 余数 。 但 是 ， 在 这 种 简单 的 杂 凌 表 组 织 里 每 个 队列 中 还 会 有 很 多 分 属 不 同 到 点 时 间 的 定时 器 ， 这 是 
因为 只 要 杂凑 计算 后 的 结果 相同 就 会 被 链 入 色 同 一 个 队列 中 。 例 如 ，jiffies 是 个 32 位 无 符号 整数 ， 假 
如 我 们 取 最 低 的 10 位 作为 杂凑 计算 的 结果 ， 也 就 是 说 在 数组 中 有 2" 个 队列 ， 那 么 从 理论 上 说 在 最 坏 
的 情况 下 在 一 个 队列 中 可 以 有 分 属于 2 种 不 同 到 点 时 间 的 定时 溃 。 当 然 , 在 实际 运行 中 是 不 会 这 么 粮 
糕 的 ， 但 是 总 叫 人 觉得 不 尽 如 人 总。 理想 的 解决 方案 是 每 全 队列 中 只 有 属于 同一 到 点 时 间 的 定时 只 。 
可 是 总 不 可 能 设置 23 个 定时 器 队列 吧 ? 所 以 , 既 要 顾及 在 时 钟 中 断 发 生 时 检查 并 处 理 这 些 定时 器 的 效 
率 ， 义 要 顾及 在 将 定时 器 插入 到 这 些 队列 中 去 时 的 效率 ， 对 此 机 制 的 设计 和 实现 是 种 挑战 。Linux 内 
核 比 较 好 地 解决 了 这 个 问题 ， 设 计 并 实现 了 一 种 相当 巧妙 的 方案 。 
在 Linux 内 核 中 设置 了 五 个 而 不 是 一 个 这 样 的 杂凑 表 , 即 定时 器 队列 数组 , 详 见 下 列 代 始 (timere); 


74 /* 
15 * Event timer code 
76 */ 


TT #define TVN BITS 6 
78 #define TVR BITS 8 
79 #define TVN SIZE (1 << TVN_BITS) 
80 tdefine TVR STZE (1 << TVR BITS) 
8l define TVN MASK (TVN SIZE - 1) 
82 &define TVR MASK (TVR SIZE - 1) 


83 

84 struct timer vec { 

85 int index; 

86 struct list head vec[TVN SIZE]: 

8T. 

88 

89 struct timer vec root | 

90 int index; 

9] struct list head vec[TVR SIZE]; 

92 1j 

93 

94 static struct timer voc tv5; 

95 static struct timer vec tv4; 

96 static struct timer vec tv3; 

97 static struct timer vec tv2; 

98 static struct timer vec root tvl; 

99 

100 static struct timer vec * const tvecs[ ] = { 
101 (struct timer vec *)&tvl, &tv2, &tv3, &tv4, &tv5 
102 }; 
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数据 结构 tyvl 、tv2、…、tv5 每 个 都 包含 了 -个 timer list 指针 数组 ， 这 就 是 所 谓 杂 凑 表 (bucket), 
表 中 的 每 个 指针 都 指向 一 个 定时 器 队列 。 上 其 中 tvl 与 其 他 几 个 数据 结构 的 不 同 仅 在 于 数组 的 大 小 ，tvl 
中 的 数组 大 小 为 竺 ， 而 其 他 几 个 的 大 小 者 是 2。 这 样 ， 队 列 的 数量 总 共 是 2 十 4X26=$12， 还 是 可 以 接 
受 的 。 每 个 数组 都 与 -个 变量 index 相 联系 ,用 来 指示 当下 一 个 时 钟 中 断 发 生 时 要 处 理 的 队列 。 与 此 同 
时 ,将 32 位 的 到 点 时 间 也 划分 成 石段 ， 其 中 最 低 的 一 段 为 8 位 ， 与 tvl 相对 应 ， 其 他 四 段 则 都 是 6 位 。 
交 将 一 个 定时 器 挂 入 队列 中 去 时 ， 先 根据 到 点 时 间 和 当前 时 间 计算 出 这 个 定时 器 应 该 在 多 少 次 时 钟 中 
断 以 后 到 点 ， 如 果 这 个 差 值 小 于 256 的 话 就 取 到 点 时 间 的 最 低 8 位 作为 其 杂凑 值 ， 然 后 用 这 个 杂凑 值 
作为 下 标 在 tv1 的 数组 中 找到 相应 的 队 齐 ， 半 将 此 定时 器 链 入 到 这 个 队列 中 。 由 于 tv1 的 数组 中 有 256 
个 队列 ， 所 以 每 个 队列 中 的 定时 器 都 共有 相同 的 到 点 时 间 。 可 是 ， 当 差 值 大 于 等 于 256 WATE? 
这 时 候 就 看 差 值 是 告 小 于 2“， 如 果 是 ， 就 取 到 点 时 间 的 数值 中 的 第 二 段 Co ME 8 位 至 第 14 位 ) 
为 杂凑 值 ， 或 下 标 ， 并 将 定时 器 插入 到 tv2 的 某 个 队列 中 去 。 示 意图 如 图 4.7。 


第 段 8 位 ， 与 tvl 相 联系 
第 一 段 6 位 ， 与 tv2 相 联系 
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图 4.7 “定时 器 队列 数组 下 标 确定 规则 示意 图 


显然 ，tv2 中 的 队列 与 wl 中 的 不 同 ， 因 为 tvl 中 每 个 队列 里 的 定时 器 部 属于 同 “个 到 点 时 间 ， 而 
tv2 中 的 队列 则 不 然 。 理 论 上 tv2 中 的 每 个 队列 部 可 能 含有 分 属 256 个 不 同人 勾 点 时 间 的 定时 器 。 也 就 是 
说 ，tv2 的 “ 凡 度 ”与 tv1 不 同 。 当 差 值 大 于 2 “时 ， 那 就 要 进一步 看 差 值 是 个 大 于 222 了， 余 类 排 。 

ALA nf LATA] BY internal, add. timer( ) 的 代码 中 了 。 读者 应 该 可 以 白山 读 懂 这 段 代 公 , 其 中 具体 将 定时 
器 链 入 到 队列 中 的 操作 由 list, add( ) 完 成 。 

也 就 是 说 ， 每 次 都 是 插入 到 队列 的 尾部 。 对 于 tvl 中 的 队列 来 说 ， 由 主 每 个 队列 中 所 有 的 定时 器 
都 龙 在 同时 间 到 点 ， 所 以 插入 的 位 置 根本 没有 关系 ; 而 对 于 其 他 的 队列 米 说 ， 下 面 就 会 看 介 其 实 也 
没有 关系 。 这 样 ， 将 一 个 定时 器 链 入 钊 队列 中 的 操作 变 得 很 简单 ， 根 本 就 不 需要 在 队列 中 寻找 合适 的 
插入 位 置 了 ， 从 而 其 代价 成 了 一 个 常数 ， 侧 与 詹 列 长 度 赤 关 了 。 同 时 ， 当 时 钟 中 断 发 生 ， 从 出 将 jiffies 
问 前 推进 “ 步 时 ， 只 要 在 tvl 中 根据 index 的 指示 将 个 队列 中 所 有 的 定时 器 都 处 理 一 遍 (执行 定时 器 
所 指定 的 函数 〉 并 将 这 些 定 时 器 释放 ， 然 后 将 index 也 向 前 推进 ， 步 就 行 了 。 当 tvl.index iA] 256 时 
就 又 将 其 没 成 0， 鼎 到 数组 的 开头 ， 开 始 另 外 一 轮 的 256 次 时 钟 中 断 。 此 时， 由 十 -个 tv 周期 已 经 完 
M, UM tv2 中 根据 tv2.index 的 指引 将 tv2 中 的 一 个 队列 搬运 到 tv1 中 。 在 搬运 的 过 程 中 ， 对 人 队列 中 的 
每 个 定时 器 都 再 调用 一 次 internal_add_timer( )。 此 时 该 队列 中 所 有 定时 器 的 到 点 时 间 与 当前 时 间 的 差 都 
已 小 于 256《 和 由 于 当量 时 间 的 推进 )， 所 以 都 会 被 分 散人 色 wl 中 的 各 个 队列 中 去 ， 而 与 各 个 定时 器 在 队 
列 中 的 位 置 无 类。 由 此 可 见 ， 链 入 tv2 各 个 队列 里 的 定时 器 是 分 购 步 到 位 进入 tvi 中 的 队列 《第 一 步 进 
入 tv2， 第 2 步 进入 tyl)。 依 次 类 推 ， 当 到 点 时 间 与 妆 前 时 间 的 美 大 于 2* 时 要 先进 入 tv5， 分 十 步 才 能 
进入 tv1。 虽 然 有 些 定时 器 划分 好 几 步 才能 到 达 wl 中 ， 其 代价 仍然 与 队列 长 度 雹 关 ， 并 且 有 个 上 距 ， 
号 是 最 多 妨 步 。 所 以 ， 这 个 办 法 要 比 线性 搜索 好 得 多 。 
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JERA BEANA, schedule timet ) 就 调用 schedule( )， 使 当前 进程 真正 地 进入 睡 
AR, SPF PR AR 
那么 ， 时 钟 中 断 怎 样 唤醒 这 个 进程 呢 ? 
在 第 3 章 中 的 “时 钟 中 断 ” 一 节 中 ， 我 们 看 到 在 从 时 钟 中 斯 返回 之 前 要 执行 与 时 钟 有 关 的 bh 函数 
timer bh(). Wy timer. bh( ) 要 调用 一 个 函数 run, timer. list( ) (timer.c): 


668 void timer bh(void) 


669 { 

670 update_times( ) ; 
671 run timer list( ); 
672  ] 


eK run, timer. list( ) 的 代码 在 sched.c "P: 


[timer. bh( ) > run, timer  list( )] 


288 static inline void run timer list (void) 

289 ( 

290 spin lock irq(&timerlist lock); 

291 while (Gong) (jiffies ^ timer jiffies) >= 0) I 
292 struct list head *head, *curr; 

293 if (!tvl. index) { 

294 int n= 1; 

295 do { 

296 cascade timers (tvecs[n]) ; 

297 } while (tvecs[n]-^index == 1 && ++n < NOOF_TVECS) ; 
298 } 

299 repeat: 

300 head = tvl. vec + tvl. index; 

301 curr = head->next; 

302 if (curr != head) { 

303 struct timer_list *timer; 

304 void (*fn) (unsigned long) ; 

305 unsigned long data; 

306 

307 timer = list entry(curr, struct timer list, list); 
308 fn = timer-»function; 

309 data= timer-?data; 

310 

311 detach timer (timer); 

312 timer->list.next = timer->list. prev = NULL; 
313 timer enter (timer) ; 

314 spin unlock irq(&timerlist lock); 

315 fn(data) ; 

316 spin lock irq(&timerlist lock); 

317 timer exit( ) ; 

318 goto repeat; 
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319 | 

320 ++timer jiffies; 

321 tvl. index = (tvl. index + 1) & TVR MASK; 
322 } 

323 spin_unlock_irg(&timerlist lock): 

324 } 


在 “时 钟 中 断 ”， 节 中 ， 我 们 还 讲 过 ,在 特殊 的 情况 下 jiffies 向 前 推进 的 步 长 有 可 能 大 于 1。 正 因 
为 这 样 ， 这 时 通过 “个 循环 来 处 理 jiffies 的 每 个 单 步 。 在 每 个 单 步 中 ， 先 看 tvl.index 是 否 为 0， 若 为 0 
LEM tv2 中 搬运 一 个 队列 到 tvl 中 。 我 们 也 把 这 种 情况 暂时 搁 下 ， 先 来 看 不 为 0 时 的 情况 。 

代码 中 由 goto 实现 的 循环 就 是 处 理 在 这 一 步 中 到 点 的 队列 。 处 理 木 身 是 很 简单 的 ， 顺 着 队列 挨个 
把 定时 器 通过 detach_timer( ) 从 队列 中 摘除 出 米 ， 然 后 就 执行 该 定时 器 所 指定 的 咀 数 。 执 行 完 这 整个 队 
列 时 ,就 将 times_jiffies 和 tvl.index 也 往 前 推进 一 步 。 但 是 ,tvl,index 的 值 是 以 256 为 模 的 (TVR_MASK)， 
所 以 其 数值 在 255 以 后 就 回 介 了 0, 下 “个 循环 中 或 者 卜 一 次 执行 这 个 函数 时 就 要 通过 cascade_timers( ) 
从 tv2 中 搬运 一 个 队列 到 tv1 中 来 。tv2 中 也 有 一 个 index， 也 此 向 前 推进 。 符 当 jiffies 向 前 推进 了 256 
步 ， 也 就 趾 每 当 发 生 了 256 次 时 钟 中 断 时 ，tv2.index 就 要 往 前 推进 一 步 。 与 tvldndex 不 同 ，tv2.index 
是 以 64 为 模 的 ， 所 以 在 达到 63 以 后 就 更 回 到 0。 当 tv2.index 为 1 时 就 此 从 tv3 中 搬运 一 个 队列 到 tv2 
中 利 tvl P, REHE. | 

为 什么 是 在 tv2.index 为 1 时 , 而 不 是 为 0 时 , 才 从 tv3 中 搬运 呢 ? 回头 去 看 -一 下 internal_add_timer( ) 
的 代码 就 清楚 了 。 当 到 点 时 间 与 当前 时 间 的 差 idx 为 TVR_SIZE 即 256 时 ， 经 过 第 136 行 的 处 理 以 后 
结果 为 1 而 不 是 0。 实际 上 ，tv2 中 小 标 为 0 的 浇 个 队列 . 定 是 空 的 。 同 时 ， 为 了 便于 实现 ， 代 码 中 将 
vh tv2 等 五 个 数据 结构 也 放 在 一 个 数组 中 ， 这 就 是 tvecs[ ]。 这 里 将 下 标 设 成 从 1 开始 ， 就 是 表示 从 
tv2 开始 搬运 ， 而 第 298 行 则 表示 如 果 tv2.index 推进 以 后 变 成 了 1 就 要 进一步 从 tv3 搬运 ， 余 类 推 。 

这 里 的 NOOF_TVECS 为 常数， 实际 上 就 是 5 (timer.c): 





104 Hdefine NOOF TVECS (sizeof(tvecs) / sizeof(tvecs[0])) 
FAT cascade timers( ) 的 代码 也 在 同一 文件 中 。 这 总 一段 简单 的 代码 ， 我 们 就 不 加 解释 了 。 


[timer_bh( ) > run timer list( ) > cascade timers( )] 


264 static inline void cascade timers (struct timer vec *tv) 

265 {f 

266 /* cascade all the timers from tv up one level */ 

267 struct liist head *head, *curr, *next; 

268 

269 head = tv-?vec + tv—>index: 

210 curr 二 head->next; 

271 /* 

212 * We are removing all timers from the list, so we don t have to 
273 * detach them individually, just clear the list afterwards. 
274 */ 

215 while (curr != head) { 

276 . struct timer_list *tmp; 
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277 

278 tmp = list entry(curr, struct timer list, list); 
219 next = curr—next; 

280 list del(curr); // not needed 

281 internal add timer(tmp); 

282 curr - next; 

283 } 

284 INIT LIST HEAD (head) : 

285 tv->index = (tv->index + 1) & TVN MASK: 

286 } 


在 我 们 这 个 情景 中 , 定时 器 中 的 函数 指针 为 process, timeout, 参数 为 睡眠 中 进程 的 task. struct 指针 ， 
所 以 到 点 时 就 会 调用 process_timeout( ) (sched.c): 


[timer bh( ) > run timer list( ) > process timeout( )] 


362 static void process_timeout (unsigned long __ data) 


363 { 

364 struct task struct * p = (struct task struct *) data; 
365 

366 wake up process(p); 

367 ] 


AONE wake, up process 将 睡 眼 中 的 进程 唤醒 。 尼 的 代码 读者 已 经 在 前 一 节 “强制 性 调度 ”中 看 
到 过 了 。 进 程 被 唤醒 许 且 再 次 被 调度 运行 时 ， 误 回 到 了 前 而 的 schedule_timeout( ) 中 。 换 铝 话说， 是 该 
进程 从 前 面 schedule_timeout( ) 中 的 schedule( ) 返 加 了 。 

i 过 去 继续 看 schedule_timeout( ) 的 代码 , 从 schedule( ) 返 回 以 后 紧 接 着 就 调用 了 del timer, sync (), 
读者 也 许 会 感到 奇怪 ， 刚 二 在 run_timer_list( ) 中 不 是 已 经 通过 detach_timer( ) 把 定时 器 从 队列 中 删除 了 
13? 怎么 这 里 又 要 del_timer_sync( ) 呢 ? WF AESESR[I ABE, del timer. sync( ) 定 义 为 del_timer( )， 我 
们 来 看 看 detach_timer( ) 和 del timer( ) 的 代 (sched.c): 


[timer_bh( ) > run timer list( ) > detach_tiner( )] 


192 static inline int detach_timer (struct timer list *timer) 
193 { 

194 if (!timer_pending (timer) ) 

195 return 0; 

196 list_del (&ktimer->list) ; 

197 return 1; 

198  ] 


[timer bh( ) > run timer, list( ) > detach tiner( ) > timer. pending( )] 


54 static inline int timer pending (const struct timer list * timer) 
55 { 
56 return timer->list. next != NULL; 
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57 } 


所 以 detach_tiner( ) 仅 在 所 处 理 的 timer list. RHAMWAM SPN AIBECMMA PH. RR 
del_timer( ) 实 际 上 调用 detach_timer( ): 


[sys nanosleep( ) > schedule_timeout( ) > del timer( )] 


213 int del_timer (struct timer list * timer) 


214 vi 

215 int reti; 

216 unsigned long flags; 

217 

218 spin lock irqsave(&timerlist lock, flags); 

219 ret = detach timer (timer); 

220 timer-»list.next = timer->list. prev - NULL; 

221 spin unlock irgrestore(&timerlist lock, flags); 
222 return reti; 

293. .4 


可 见 ， 对 一 个 已 经 从 队列 中 脱 链 的 定时 器 再 调用 一 次 del timer( ) 并 没有 害处 。 吕 是 ， 即 使 没有 定 
处 ， 也 没有 理由 做 盛 用 功 啊 。 是 的 ， 但 是 要 想到 ，run_timer_list( ) 并 个 是 惟 “可 以 将 这 个 进程 唤醒 的 北 
数 。 当 为 一 个 进程 向 睡眠 中 的 进程 发 送 :个 信号 时 ， 同 样 可 以 将 其 唤 目 。 所 以 ， 在 schedule_timeout( ) 
中 再 调用 一 次 del. timer( ) 就 可 以 确保 安全 了 。 这 里 要 指出 , 这 时 的 timer 是 个 局 部 昌 , 其 空间 在 堆栈 中 ， 

‘ELM schedule_timeout( ) 退 回 ， 这 个 数据 就 消失 了 。 这 里 可 以 省 去 动态 分 般 利 释放 缓冲 器 的 麻烦 ， 也 
可 以 提高 效率 。 品 是 将 这 样 一 个 数据 结构 留 在 队列 中 是 很 危险 的 ， 一 定 要 保证 在 这 个 数据 结构 还 有 效 
时 将 其 从 队列 中 去 除 。 

最 后 ， 期 望 中 的 到 点 时 间 expire 与 当前 时 间 jiffies 之 兰 为 剩 下 的 尚未 睡 够 的 时 间 。 这 剩 下 的 尚未 
睡 够 的 时 间 是 以 时 钟 中 晰 的 次 数 为 尺度 的 ， 所 以 在 sys_nanosheep( ) 中 又 将 其 换算 回 timespec 数据 结构 
中 的 秒 和 坚 微 秒 ， 然 后 返回 给 用 户 空 间 。 当 然 ， 只 有 企 进程 因 信 号 而 被 唤醒 时 才 有 可 能 还 未 睡 够 。 否 
则 ， 睡 过 了 头 的 可 能 倒是 有 的 。 这 一 方面 是 因为 在 特殊 的 情况 下 也 许 会 把 好 儿 次 时 钟 中 断 合并 在 ”起 
进行 对 jiffies 的 处 理 ， 所 以 一 次 束 向 前 推进 好 几 步 。 另 “ 方 而 即使 按时 将 进程 唤醒 也 不 能 保证 该 进程 
马上 就 会 被 调度 运行 。 

系统 调用 sys nanosheep( )Jf4F schedule_timeout( ) 的 惟 “HA”. ARE Pine T — eR 
interruptile sleep on timeout( ), (He R BIRT CARPE, BRR sd S AE 
SCRE. Hah, EARP E n O AH schedule timeout( ). 





Lj sys nanosheep( ) 相 比 ， 同 样 也 是 系统 调 州 的 sys. pause( ) 的 代码 就 很 简单 了 ， 其 代码 在 
arch/i386/kernel/sys 1386.c 中 : 


250 asmlinkage int sys_pause (void) 


251 { 

952 current->state = TASK_INTERRUPTIBLE; 
253 schedule( ); 

254 return -ERESTARTNOHAND: 
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255 } 


显然 ， 当 前 进程 通过 sys pause( ) 入 睡 以 后 ， 只 有 在 接收 到 信号 时 才 会 被 唤醒 。 


49 ”内核 中 的 互 斥 操作 


内 核 中 的 很 多 操作 在 进行 的 过 程 中 都 不 容许 受到 打扰 ， 最 典型 的 例子 就 是 队 作 操作。 如 朵 两 个 进 
程 都 要 将 一 个 数据 结构 链 入 到 问 一 个 队列 的 尾部 ， 旧 是 在 第 一 个 进程 完成 了 一 半 的 时 候 太 生 了 调度 ， 
让 第 二 个 进程 插 了 进 米 ， 结 果 很 可 能 就 瑟 了 。 类 似 的 干扰 也 有 可 能 米 所 某 个 中 断 服 务 程序 或 bh FRI. 
在 多 处 理 器 SMP AMM ASE, ROR TULA I eK BTA o 

不 过 ， 除 了 :个 进程 主动 调用 schedule( ) 让 出 CPU 的 情况 (显然 不 会 发 牛 在 不 容许 受到 打扰 的 过 
程 中 途 ) 之 外 ， 上 只 有 在 从 系统 空间 返 同 到 用 户 空间 的 前 多 才 有 可 能 发 生 调 度 。 这 样 的 安排 使 得 上 述 两 
个 进程 闻 的 于 扰 实 际 上 不 会 发 生 在 内 核 中 。 这 一 点 在 “进程 的 调度 与 切换 ”一 六 中 已 经 讨论 过 了 。 所 
以 ， 上 述 两 个 进程 在 内 核 小 互相 十 扰 的 情况 实际 上 只 会 发 生存 多 人 处理 器 的 系统 中 ， 在 单 处 理 器 的 系统 
中 是 不 会 发 生 的 。 但 是 ， 让 另 一 种 情 沉 下 ， 则 仍 有 可 能 发 生 进 程 间 的 干扰 。 系 统 中 有 些 资 源 是 共享 的 ， 
但 是 在 其 体 使 用 期 间 归 需要 独占 ， 而 且 对 这 些 资源 的 访问 可 能 会 受阻 测 需 要 睡眠 等 等。 进程 企 访问 此 
类 资源 的 时 候 就 可 能 受到 其 他 进程 的 十 扰 。 至 于 来 自 中 断 服 务 程序 (包括 bh KZO 的 十 扰 ， 则 总 起 有 
可 能 的 。 并 月 ， 在 多 处 理 器 系统 中 ， 不 但 要 防止 来 自 同 “处理 器 上 的 中 断 服 务 程序 的 干扰 ， 还 要 防止 
来 自 其 他 处 理 器 的 中 断 服务 程序 的 干扰 。 | 

在 “多 处 理 器 SMP RAA” — xs RATT A OE a al. (A, Bn ERE 
述 ， 如 果 不 加 防止 ， 单 处 理 器 系统 中 在 一 定 条 件 下 也 会 发 和 进程 间 的 互相 下 扰 。 另 一 方面 ， 这 种 措施 
也 被 借用 在 系统 调用 vfork( ) 中 ， 用 作 父 进程 与 子 进程 之 问 对 于 共 党 虚 存 空间 的 互 斥 保护 手段 。 

进程 问 对 共享 资源 的 互 斥 访问 ， 或 者 说 对 进程 问 革 扰 的 防范 ， 是 通过 “信号 量 ”(semaphore) 这 种 
机 制 来 实现 的 。 内 核 中 为 此 提供 了 down( ) 和 up( ) 丙 个 函数 ， 分 别 对 应 于 操作 系统 理论 中 的 P 和 V P8 
种 抬 作 。 伞 填 信 号 量 ， 则 是 一 种 数据 结构 类 型 semaphore. 

先 看 数据 结构 ，struct semaphore 是 在 include/asm-i386/semaphore.h 中 定义 的 : 


44 struct semaphore { 

45 atomic t count; 

46 int sleepers; 

47 wall queue head t wait; 
48 &if WAITQUEUE DEBUG 

49 long __ magic; 

50 #endif 

51 上 


计数 器 count 所 计 的 就 是 “信号 量 ” 中 的 那个 “最 ” 已 代 友 着 可 使 用 资源 的 数量 。 没 有 学 习 过 操作 
系统 理论 的 读 少 不 妨 把 这 个 数据 结构 想像 成 一 个 院子 的 大 门 ， 而 count 表 示 -… 共 有 几 张 门 沫 。 当 个 进 
程 急 要 进入 这 个 院 于 的 围墙 果 面 十 些 什 么 时 ， 先 要 在 人 门口 领取 门票 。 所 以 count 的 数值 即 表 示 还 有 几 
个 进程 可 以 进门 。 让 典 模 的 情况 下， 一 共 就 只 有 - 张 票 ， 所 以 具有 一 个 进 保 趾 以 进 太 。 

将 一 个 进程 米 到 门 晶 要领 紫 ， 却 发 现 门票 已 经 发 完 的 时 候 ， 就 只 好 到 估 门 旁边 的 “休息 室 ” 去 睡 
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眠 、 等 候 。 这 个 休息 室 就 是 这 里 的 队列 wait， 而 计数 器 sleepers 则 表示 有 几 个 进程 正在 等 候 。 进 入 了 院 
子 的 进程 ， 完 成 了 它 要 做 的 事情 以 后 ， 还 是 从 同一 个 大 门 出 来 ， 并 将 门票 交还 。 如 果 在 交还 门票 之 前 ， 
门票 的 数量 己 经 是 0， 那 就 可 能 有 进程 止 在 休 总 室 中 等 候 ， 所 以 述 此 向 这 些 止 在 等 候 的 进程 打 个 招呼 ， 
说 “现在 有 门票 了 ”， 或 者 说 ， 将 这 些 进 程 唤醒 ， 让 它们 去 竞争 那 张 门票 。 可 见 ， 原 理 其 实 很 简单 。 下 
面 通过 -- 段 实例 ， 看 看 这 段 过 程 具 体 是 怎么 实现 的 。 这 段 实例 取 自 系统 调用 umount( )， 我 们 在 这 里 并 
不 关心 怎样 拆 凶 《umount) 一 个 已 经 安装 的 文件 系统 ， 而 是 关心 怎样 把 一 部 分 关键 性 的 操作 保护 起 来 。 
下 面 的 代码 取 目 文件 super.c: 


44 /* 

45 * We use a semaphore to synchronize all mount/umount 

46 * activity - imagine the mess if we have a race between 

47 * unmounting a filesystem and re-mounting it (or something 
48 * else). 

49 */ 


50 static DECLARE MUTEX (mount sem); 


ee | 


1118 { 

1144 down (&mount sem); 

1145 retval = do_umount (nd. mt, 0, flags); 
1146 up (&mount_ sem); 

1152 return retval; 

1153  ] 


这 里 的 目的 是 要 把 do. umount( ) 保 护 起 来 , 因为 在 同 “时 间 里 整个 系统 中 只 允许 有 :个 进程 在 安装 
或 拆卸 文件 系统 ， 而 安装 或 拆 伸 文件 系统 的 过 程 叉 是 可 能 《实际 上 是 必定 ) 受阻 ， 因 而 中 途 会 发 生 调 
度 的 。 为 达到 这 个 目的 ， 首 先 企 第 50 行 建立 起 一 个 独门 的 “院子 ”或 者 说 “信号 量 ”mount_sem， 并 
且 把 要 加 以 保护 的 操作 放 在 进门 (down) 和 出 门 (up) 两 个 操作 之 间 。 要 进入 这 个 “院子 ”时 必须 要 先 执 行 
down( ) 以 得 到 一 张 “门票 ”， 而 当 完 成 了 操作 从 里 面 出 来 时 则 装 执 行 up( ) 以 归还 门票 并 唤 上 解 可 能 赴 在 
等 待 的 其 他 进程 。 操 作 系统 理论 里 把 这 段 需要 独家 关 起 门 来 干 的 操作 称 为 “ 痢 界 区 ”(critical section). 
顺便 说 “下 ， 把 critical section 翻 详 成 “临界 区 ”似乎 有 点 学 究 气 ，critical RRA “TERRE, dep 
好 的 话 后 此 可 能 很 严重 ”的 意思 。 

有 六 DECLAR_MUTEX( ) 的 定义 在 include/asm-i386/semaphore.h 中 


53 #if WAITQUEUE DEBUG 
54 # define | SEM DEBUG INIT(name) \ 


55 , (int)&(mame). | magic 
56 Helse 

57 # define | SEM DEBUG INIT (name) 
58 Hendif 

59 


60 define _ SEMAPHORE TNITIALIZER(name, count) V 
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61 { ATOMIC INIT(count), 0, WAIT QUEUE HEAD INTTTALTZER((name). wait) \ 


62 . SEM DEBUG INIT(name) | 

63 

64 define . MUTEX TNTTTALIZER(name) \ 

65 .. SEMAPHORE. INITTALTZER (name, 1) 

66 

67 define . DECLARE SEMAPHORE GENERIC (name, count) \ 

68 struct semaphore name = __ SEMAPHORE INITIALIZER (name, count) 
69 


70 #define DECLARE MUTEX (name) | DECLARE SEMAPHORT GENERTC (name, 1) 
71 tdefine DECLARE MUTEX LOCKED(name) | DECLARE SEMAPIORE GENERIC (name, 0) 


E 定义 ATOMIC INIT( ) 和 _ WAIT QUEUE HEAD INITIALIZER ) 分 别人 在 
include/asm-i386/atomic.h 和 include/linux/wait.h FF, iz HEB frg. MZ, 经 过 gee 的 预 处 理 以 后 ， 
前 面 的 第 50 行 束 变 成 类 似 丁 这 样 的 语句 : 

static struct semaphore — mount, sem={{(1)}.,0,…} 

也 就 是 说 ， 通 过 DECLARE_MUTEX( ) 建 立 的 信号 量 只 有 15K “Tat”, MARA 个 进程 可 以 进 
入 临界 区 。 另 -种 通过 DECLARE MUTEX_LOCKED( 22°57. 807 5 22 “: 张 门票 也 没有 ， 定 此 等 到 
某 个 进程 通过 up( ) 操 作 送 来 “: 张 才能 把 它 发 给 一 个 进程 而 允许 其 进入 大 门 。 读 青 已 经 在 系统 调用 fork( ) 
一 节 中 看 到 过 此 种 信号 量 的 运用 。 两 种 信号 量 各 有 各 的 用 处 ,而 MUTEX fll MUTEX LOCKED 下 反映 
了 它们 各 自 的 用 途 。 此 外 ， 信 和 号 量 既 可 以 作为 全 局 量 存在， 也 可 以 作为 某 个 函数 的 局 部 量 存 在 。 

对 于 信号 量 的 操作 只 有 down ) 和 up( AP, KAW inline HM, MEA 
include/asm-i386/semaphore.h 中 定义 的 。 先 看 down( ): 


109 /* 

110 * This is ugly, but we want the default case to fall through. 
Isl * " down failed" is a special asm handler that calls the C 
112 * routine that actually waits. See arch/i386/kernel/semaphore. c 
113 */ 

114 static inline void down(struct semaphore * sem) 

115 { 

116 #if WATTQUEUE DEBUG 

117 CHECK MAGTIC(Csemn- > magic): 

118 Hendif 

119 

120 asm  volatilc. ( 

121 "W atomic down operationNnNt 

122 LOCK "decl %O\n\t” /* —-sem->count */ 

123 “js 2f\n” 

124 gl eet 

125 " section . text. lock, V/axV Wn" 

126 ^2:Ntcall | down failed\n\t” 

127 “jmp lbin^ 

128 ^ previous” 

129 :” m^ (sem-^count) 
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130 :"c" (sem) 
131 :”memory”) ; 
132 } 


BHR AIC TCE A S DEMS SEAS EER, WAREKE sem 与 
寄存 器 ECX 结合 。 由 于 count Æ semaphore 数据 结构 中 的 第 一 个 成 分 , 所 以 指向 该 数据 结构 的 指针 sem 
AV AFT sem->count 的 指针 ， 从 而 第 122 行 的 decl 指令 所 递减 的 实际 上 是 sem->count。 减 了 以 后 的 结 
果 若 为 0 或 大 十 0， 或 者 说 如 果 成 功 地 拿 到 了 一 张 门票 ， 那 么 就 在 标号 “1” 处 结 来 了。 注意 这 里 在 指 
令 decl ATA MATH LOCK, 表示 在 执行 这 条 指 今 时 此 把 总 线 锁 住 ,以 防 可 能 米 白 同一 系统 中 其 他 CPU 
HTH. 

如 果 减 了 以 后 的 结果 为 负数 ， 那 就 表示 拿 不 到 门票 ， 就 转 到 标号 “2” 处 调用 _down_fuiled( )。 实 
bil. MER4E down falled( ) 中 会 进入 睡 甩 ， 一 直 要 到 被 唤 柄 并 成 功 地 拿 到 门 此 才 会 从 于 甲 返 回 ， 然 
后 转 色 标号 “1” 而 结束 down( ) 操 作 ， 即 进入 了 临界 区 。 

图 数 _down_failed( ) 以 及 有 关 的 代码 部 在 arch/i386/kermel/semaphore.c "P: 


[down( ) > . down failed( )] 


171 /* 

172 * The semaphore operations have a special calling sequence that 

173 * allow us to do a simpler in line version of them. These routines 
174 * need to convert that sequence back into the C sequence when 

175 * there is contention on the semaphore. 

176 * 

177 * becx contains the semaphore pointer on entry. Save the C-clobbered 
178 * registers (%eax, %cdx and %ecx) except %eax when used as a return 
179 * value.. 

180 */ 

181 asm( 


182 ^.align 4\n” 
183 ^.globl | down failed in^ 
184 " | down failed: Wt" 


185 “pushl %eax\n\t” 
186 "pushl %edx\n\t.” 
187 "pushl %ecx\n\t” 
188 "call | downWnNt^ 
189 “pop] %eex\n\t” 
190 "popl %edx\n\t” 
191 “popl %eax\n\t” 
192 “ret” 

193 Js 


VAN, RXBBUIDHUAZET IH down(). (Om MEE TEX XE. Csemaphore.c). 的 开头 处 加 
段 注释 ， 或 可 帮助 读者 更 好 地 理解 ; 


20 /* 
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21 * Semaphores are implemented using a two-way counter: 

22 * The “count” variable is decremented for each process 

23 x that tries to aquire the semaphore, while the "sleeping 
24 * variable is a count of such aquires. 

25 * 

26 * Notably, the inline "up( )" and "down( )" functions can 
27 * efficiently test if they need to do any extra work (up 
28 * needs to do something only if count was negative before 
29 * the increment operation. 

30 * 

31 * “sleeping” and the contention routine ordering is 

32 * protected by the semaphore spinlock. 

33 * 

34 * Note that these functions are only called when there is 
35 * contention on the lock, and as such all this is the 

36 * “non-critical” part of the whole semaphore business. The 
37 * critical part is the inline stuff in <asm/semaphore. h> 
38 * where we want to avoid any extra jumps and calls. 

39 */ 


FE. down( ) 的 代码 : 


[down( } > __down_fail( ) > __downt )] 


58 void __down(struct semaphore * sem) 

59 { 

60 struct task struct *tsk = current; 

6l DECLARE_WAITQUEUE (wait, tsk); 

62 tsk->state = TASK UNINTERRUPTIBLE: 

63 add wait queue_exclusive(&sem->wait, &wait); 

64 

65 spin lock irq(&semaphore. lock); 

66 sem-»sleepers-*; 

67 Dor (9. 

68 int sleepers = sem-?sleepers; 

69 

10 /* 

71 * Add “everybody else” into it. They aren't 
12 * playing, because we own ihe spinlock. 

T3 */ 

74 if (latomic add negative(sleepers - 1, &sem->count)) | 
15 sem >sleepers = Q; 

76 break; 

77 } 

78 sem->sleepers = l; /* us - see -l above */ 
79 spin unlock irq(&semaphore lock); 

80 

8] schedule( ); 
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82 tsk->state = TASK UNINTERRUPTIBLE; 
83 spin lock irq(&semaphore lock); 

84 ] 

85 spin unlock irq(&semaphore lock); 

86 remove wait queue(&sem-^»wait, &wait): 
8T tsk->state - TASK RUNNING: 

88 wake up (&sem->wait) ; 

890  ] 


有 关 等 待 队列 中 各 元 素 的 数据 结构 wait queue t 以 及 宏 定 义 DECLARE. WAITQUEUE( ), 读 者 山 在 
前 一 节 中 看 到 过 , Cb AN PEOR «MJ add_wait_gueue_exclusive( ) 则 把 代表 当前 进程 的 符 待 队列 元 表 wait 
链 入 到 由 队列 头 sem->wait 代表 的 等 待 队列 的 尾部 。 当 CPU 执行 到 达 for(;;) 循 环 时 ，sem->sleepers X 
明 ( 连 当前 进程 在 内 ) 一 共有 几 个 进程 正在 等 待 着 旧 进 入 临界 区 。 男 一 方面 ， 虽 然 当 前 进程 是 内 为 拿 
不 到 “门票 "， 进 不 了 临界 区 才 到 了 __ down( )'|1， 但 是 由 于 在 这 里 的 spin. lock, irq( ) 之 前 并 没有 加 锁 ， 
说 不 定 已 经 有 茶 个 进程 (当然 是 在 男 一 个 处 球 器 上 ) 在 此 期 间 已 经 执行 了 - -次 up( ) 操 作 ， 内 而 这 个 时 
候 突 际 上 已 经 有 “门票 ”了 。 如 果 不 再 作 一 次 检查 ， 奢 就 会 无 谓 地 进入 睡眠 而 等 竺 已 经 存在 的 “ 门 柴 ”， 
更 糟 的 是 ， 可 能 再 也 没有 进程 会 来 唤醒 它 了 。 廊 以， 在 for( ) 循 环 中 通过 atomic_add_negative( ) 所 作 的 
检查 是 很 关键 的 。 而 昌 ， 它 所 作 的 还 不 仅仅 是 检查 ， 它 将 《sleepers 一 1) 加 到 sem->count 上 上 去， 使 得 
它 的 值 不 会 小 二 一 1。 举 例 来 说 ， 如 果 企 当前 进程 执行 down( ) 之 前 sem->count Jy 0, 3E FLA AI (E DA 
来 并 无 进程 在 此 信号 量 上 执行 up( )， 那 么 《sleepers 一 1) 为 0， 而 sem->count 为 一 1， 相 加 的 结果 仍 契 
一 1， 此 时 atomic_add_negative( E DIER, 表示 当 前 进 积 仍 需 等 待 。 而 若 硅 65 行 之 前 已 经 有 个 进程 在 
此 信和 叶 量 上 执行 了 up HE. IA sleepers 一 1 仍 为 0， 但 sem->count 变 成 了 0， 相 加 的 结果 为 0 而 不 
是 负数 ， 此 时 atomic, add, negative( ) 返 国 替 ， 表 示 当 前 进程 不 需 此 等 待 了 了 上， 可 以 进入 临界 区 了 ， 就 好 像 
本 次 操作 在 down( ) 申 面 将 sem->count 从 1 变 成 了 0 -- 样 。 当 sem-»count 的 值 为 正 数 或 0 时 表示 还 有 
多 少 资 源 ， 或 者 可 以 理解 为 还 剩 下 几 张 “门票 ” 而 sem->count 为 负 的 时 候 则 志明 已 经 没有 资源 并 且 有 
进程 正在 等 待 ， 却 并 不 需要 表明 到 底 有 几 个 进程 止 在 等 待 。 这 样 ， 在 up( ) 抬 作 中 可 以 用 一 条 指令 将 
sem->count 加 1， 然 后 根据 结果 是 否 为 0 判定 是 售 有 进程 需要 唤醒 。 

如 果 当 用 进程 发 现 不 再 需 此 等 待 了 ， 它 就 通过 这 里 的 break TE TUBE for HR, Fe AERIALS Bu uf AY 
等 竺 队列 中 的 其 他 进程 。 不 过 ,如 果 丰 其 他 进程 下 在 等 待 的 话 ， 被 唤醒 之 后 多 半 通 不 过 第 74 行 的 测试 ， 
这 是 因为 那 时 候 sem->sleepers 已 经 设 成 了 0 (WU 75 行 )， 所 以 (sleepers 一 1) 为 一 1， 忆 经 是 个 负数 ; 


除非 此 时 sem->count 山 经 变 成 1， 否 则 atomic_add_negative( VARAR EE 0. i AR PER DA 
Wie. 


75 atomic, add. negative( )JA[H]E O 时 ， 当 前 进程 就 真 的 要 进入 睡眠 状态 等 待 了 ， 所 以 在 第 81 行 调 
用 schedule( )。 由 于 入 睡 的 状态 为 TASK_UNINTERRUPTIBLE， 所 以 不 会 内 接收 到 信号 而 被 唤醒 。 同 
时 ， 由 于 标志 位 TASK EXCLUSIVE 为 1， 所 以 只 有 排 在 队 旭 中 的 第 一 个 进程 才 会 被 唤醒 。 还 要 指出 
WIE, ARERR > EAE AE CME JA schedule( ) 中 返回 ， 并 站 到 循 坏 体 的 前 部 时 ， 几 于 sem-»slcepers 在 
78 行 被 设 成 1, 所 以 此 时 (sleepers 一 1) 必然 为 0, 所 以 能 否 进入 临界 区 的 条 件 取 决 于 当时 的 sem-»count 
是 否 为 负数 〈 一 1)。 在 典型 的 情况 K， 被 up( ) 拒 作 所 唤醒 的 进程 会 碰 上 sem->count 为 0， 从 而 能 跳出 
for( fa AA — down( ) 返 串 而 进入 临界 区 。 YEA — down ) 返 加之 前 它 偿 要 再 从 队列 中 唤醒 :个 进程 ,而 
那个 进程 就 往往 区 继续 等 待 了 。 

从 代 但 中 可 以 看 出 ， 当 有 多 个 进程 在 等 待 进入 “个 临界 区 时 ， 当 前 进程 赂 有 些 优势 ， 然后 就 是 “ 先 
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来 先进 ”， 侧 进程 的 优先 级 别 并 没有 起 作用 。 在 有 实时 要 求 的 系统 中 这 林 必 不 是 个 缺陷 ， 将 来 的 版 本 
中 也 许 会 考虑 这 个 问题 。 

还 有 个 问题 也 与 优先 级 和 临界 区 相 联 系 ， 称 为 “优先 级 倒转 ”。 斌 想 这 么 种 情景 一 个 优先 级 很 
高 的 进程 在 某 一 临界 区 门 外 等 待 ， 而 正在 临界 区 里 面 的 进程 偏偏 优先 级 很 低 ， 而 及 一 旦 因 操 作爱 阴 进 
入 睡眠 ， 然 后 被 唤醒 时 便 “时 得 个 证 机 会 运行 ,于 是 便 “ 急 惊 风 过 上 了 慢 郎 中 ” 在 这 样 的 情况 下 , 优 
先 绕 高 的 进程 内 临界 区 内 的 进程 优先 级 太 低 而 受 了 连累 。 解 决 的 方法 是 ， 当 有 优先 级 高 的 进程 在 临 界 
区 外 等 待 的 时 候 ， 就 斩 时 把 它 的 高 优先 级 “ 借 ” 给 临界 区 内 的 进程 ， 提 高 上 其 竞争 力 。 日 前 在 Linux 内 
核 中 尚 林 实 现 此 种 机 制 ， 这 也 是 一 个 串 以 改进 的 地 方 。 不 过 ， 问 题 也 并 不 像 想 像 中 那么 严重 ， 内 为 内 
核 中 需要 在 临界 区 内 进行 的 操作 一 般 都 是 很 短促 的 ， 不 全 十 受阻 ， 反 之 ， 必 须 在 临界 区 内 进行 、 而 义 
有 可 能 中 途 受 阻 放 需要 睡眠 的 操作 ， 则 ， 般 不 宜 由 优先 级 很 商 的 进程 米 进 行 。 

AERA up( ) WLT, hE semaphore.h 'T': 


182 /* 

183 * Note! This is subtle. We jump to wake people up only if 
184 * the semaphore was negative (== somebody was waiting on it). 
185 * The default case (no contention) will result in NO 
186 * jumps for both down( ) and up( ). 

187 */ 

188 static inline void up(struct semaphore * sem) 

189 | 

190 #if WAITQUEUE DEBUG 

191 CHECK MAGTC(sem->. magic); 

192 Hendif 

193 asm volatile ( 

194 "S atomic up operation\n\t” 

195 LOCK "incl %0\n\t” /* ++sem—->count */ 

196 “jle 2£\n” 

197 en” 

198 ". section . text. lock, \"ax\"\n" 

199 “2:Nteall up wakeup\n\t” 

200 “jmp lb\n” 

201 "previous" 

202 :^-m^ (sem->count) 

203 :"c^ (sem) 

204 ;"memory^) ; 

205  ] 


显然 ， 与 down ) 的 代码 是 相似 的 ， 不 同 之 处 仅 在 十 这 是 递增 ， 而 不 是 递减 sem->count, Jf Ede 
增 以 后 结果 为 0 或 负数 时 就 调用 _up_wakeup( )， 玫 也 是 在 semaphore.c P: 
[up( ) > __up_wakeup( )] 
219 asm ( 


220 " align 4\n" 
221 ".globl | up wakeup\n” 
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222 
223 
224 
220 
226 
227 
228 
229 
230 
231 


vt 
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__up_wakeup: \n\t” 


"pushl %eax\n\t” 
“pushl %edx\n\t” 
"pushl %eex\n\t” 
"call __up\n\t” 
“popl %ecx\n\t” 
“popl %edx\n\t” 
“popl %eax\n\t” 


Ji 


-同样 ，__up() 的 代码 也 在 semaphore.c 中 : 


[up( ) > __up_wakeup()>__up()] 


41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
ol 
92 
nd 
54 


Logic: 


only on a boundary condition do we need to care. When we go 
from a negative count to a non-negative, we wake people up. 


(a) synchronize with the “sleeper” count and (b) make sure 
that we're on the wakeup list before we synchronize so that 
we cannot lose wakeup events. 


void __ 


{ 


* 

* 

* 

* 一 When we go from a non-negative count to a negative do we 
* 

* 

* 


up(struct semaphore *sem) 


wake up (&sem-^wait); 


} 


这 里 的 wake_up( ) 和 HE ARIZ MARE sched.h 中 定义 的 : 


#define 


define 


#def ince 


#define 


#define 


Hdef ine 


wake up (x) __wake_up({x), V 
TASK_UNINTERRUPTIBLE | TASK INTERRUPTIBLE, WQ FLAG EXCLUSIVE) 
wake up all(x) wake up((x), V 


TASK_UNINTERRUPTIBLE | TASK INTERRUPTIBLE, 0) 
wake up sync(x) | wake up synce((x), 
TASK UNINTERRUPTIBLE | TASK INTERRUPTIBLE, WQ FLAG EXCLUSTVE) 
wake up interruptible(x) V 
7 -wake _up((x), Ut ere eee 














"Swale Sis ( (x) ; "n INTERRUPTTBIE, 0) 
wake up interruptible sync(x) V 
_ wake up sync((x), TASK INTERRUPTIBLE, WQ FLAG EXCLUSTVE) 


I]. wake up( ) 则 在 sched.c 中 。 谈 者 可 以 看 到 这 个 前 数 依次 唤醒 一 个 队列 中 的 所 有 符合 条 件 的 进 


程 。 (He, WR 


-个 被 唤醒 进 称 的 TASK EXCLUSIVE 标志 为 1 就 不 骨 继 续 唤 醒 队 列 中 其 余 的 进程 了 
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fup( ) > __up_wakeup( ) ». up()» wake up()». wake, up( )] 


766 void | wake up(wait queue head t *q, unsigned int mode, unsigned int wq mode) 
767 { 

768 __wake_up_common(q, mode, wq mode, 0); 

769  ] 


[up( ) > up. wakeup( ) > __up() > wake, up( ) > __wake_up() > . wake up common )] 


692 static inline void | wake up common (wait queue head t *q, unsigned int mode, 
693 unsigned int wq mode, const int sync) 
694 { 

695 struct list head *tmp, *head: 

696 struct task struct *p, **best exclusive; 
697 unsigned long flags; 

698 int best cpu, irq; 

699 

700 if (1g) 

101 goto out; 

702 

703 best cpu = smp processor id( ); 

704 irq = in interrupt( ); 

705 best_exclusive = NULL; 

706 wq_write_lock_irqsave (&q->lock, flags); 
707 

708 #if WAITQUEUE DEBUG 

709 CHECK MAGIC WQHEAD (q) ; 

710 #endif 

711 

712 head = &q->task list; 

713 #if WAITQUEUE DEBUG 

714 if (thead->next || !head->prev) 

715 WQ_BUG( ) ; 

716 #endif 

717 tmp = head->next; 

718 while (tmp != head) { 

719 unsigned int state; 

720 wait queue t *curr = list entry(tmp, wait queue t, task list); 
721 

722 tmp = tmp->next; 

723 

724 Hif WAITQUEUE DEBUG 

125 CHECK MAGIC(curr-? magic); 

726 #endif 

了 27 p = eurr-?task; 

128 state = p-^5state; 
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729 if (state & mode) { 

730 Hif WAITQUEUE DEBUG 

731 curr->__waker = (long) _builtin_return address (0) ， 
732 #endif 

T33 /* 

734 * If waking up from an interrupt context then 
735 * prefer processes which are affine to this 
736 * CPU. 

737 */ 

738 if (irq && (curr->flags & wq mode & WQ FLAG EXCLUSIVE)) | 
139 if (!best exclusive) 

740 best exclusive = p; 

741 if (p->processor == best cpu) { 

142 best exclusive = p; 

143 break; 

744 } 

745 } else { 

746 if (sync) 

747 wake_up_process_ synchronous (p) ; 

748 else 

749 wake up process (p); 

750 if (curr->flags & wq mode & WQ FLAG EXCLUSIVE) 
151 break; 

752 } 

753 } 

754 } 

755 if (best_exclusive) { 

756 if (sync) 

757 wake up process synchronous(best exclusive); 
158 else 

159 wake up process(best exclusive); 

760 } 

761 wq write unlock irqrestore(&q-^lock, flags); 

162 out: 

163 return; 

164 } 


TARH, DE—MMEREIETESS REAPS RDCE, CTE RA UR CCE PI ah 
ATE) 的 释放 。 向 进入 了 个 临界 区 的 进程 则 占用 了 项 独占 资源 。 如 果 :个 进程 进入 了 一 个 临 
HX A， 而 又 企图 进入 另外 一 个 临界 区 B 的 话 ， 者 就 可 能 会 因为 进入 不 了 邦 个 临界 区 ， 也 就 是 得 不 到 
所 需 的 资源 ， 而 只 好 在 B 的 队列 中 等 待 。 那 么 ， 所 等 待 的 资源 又 在 谁 的 手 里 呢 ? 如 果 已 经 占有 了 那 项 
资源 的 进程 恰好 也 正在 A 的 队列 中 等 待 ， 那 就 发 生 了 所 谓 的 “ 死 锁 ” 因为 此 时 些 个 进程 都 无 法 向 前 推 
进而 到 达 可 以 释放 资源 的 那 一 步 。 显 然 ， 对 共享 资源 (在 使 用 期 间 也 允许 共享 的 资源 ) 的 使 用 是 不 会 
FREMM. TE Linux 系统 中 ， 多 数 的 资源 部 是 可 共享 的 ， 而 独占 资源 的 使 用 则 置 于 临界 区 中 。 只 要 
保 让 不 在 一 个 临界 区 中 企图 进入 另 一 个 临 输 区 ， 那 就 不 会 发 生死 锁 ， 而 这 也 是 防止 死 锁 的 最 简单 的 办 
ik. 进一步， 即使 在 个 临界 区 中 企图 进入 另 ， 个 临界 区 ， 但 是 如 果 为 所 有 的 临界 区 排 好 个 次 序 ， 
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所 有 的 进程 在 进入 临界 区 时 部 遵守 相同 的 次 序 〈 例 如 ， 只 能 先进 A 后 进 B， 而 个 允许 先进 B FE A), 
则 也 不 会 发 生 上 述 因 循环 等 待 而 引起 的 涉 锁 。 在 日 前 的 内 核 中 尚 无 防止 和 化 解 死 锁 的 措施 ， 也 没有 防 
止 进程 在 一 个 临界 区 中 不 按 次 序 进 入 另 一 个 临界 区 的 措施 。 所 以 ， 这 也 龙 将 来 可 加 以 改进 的 一 个 方面。 

在 内 核 中 ， 需 要 “ 互 斥 ”的 不 仅仅 是 进程 与 进程 之 问 ， 干 扰 也 可 能 发 牛 寺 进 程 与 中 断 服 务 程序 (或 
bh 函数 ) 之 间 。 回 时 ,“ 信 号 量 ” 也 并 非 防 止 进程 问 ， 特 别 症 在 不 同 处 理 器 上 这 行 的 进程 之 问世 相干 扰 
的 惟 -… 手 段 。 例 如 ， 关 中 断 无 疑 是 保证 同一 处 理 器 中 进程 与 中 断 服 务 程 序 间 豆 斥 的 一 种 于 段 ， 但 是 它 
不 能 防止 来 自 男 一 处 理 器 上 的 中 断 服务 程序 或 进程 的 干扰 。 

另 :种 有 效 的 手段 就 是 加 锁 。 读 者 在 前 而 down ) 的 代 反 中 看 到 的 spin_lock_irq( ) 和 
spin unlock irq( ) 就 是 其 中 之 一 。 特 别 是 在 多 处 埋 器 SMP 结构 的 系统 中 ， 由 软件 实现 的 各 种 锁 尤 其 起 
着 无 可 替代 的 作用 。 文 件 include/linux/spinlock.h 中 定义 了 一 些 加 锁 操 作 : 


6 /* 

7 * These are the generic versions of the spinlocks and read-write 

8 * locks.. 

9 */ 

10 #define spin lock irqsave(lock, flags) do { local_irq_save (flags) ;\ 

spin lock (lock); | while (0) 

1i &define spin lock irq(lock) do | local irq disable( );\ 
spin lock(lock); } while (0) 

12 define spin lock bh(lock) do | local bh disable( );^ 
spin lock(lock); } while (0) 

13 


14 #define read lock irqsave(lock, flags) do { local irq save(flags) ;\ 
read lock(lock); ) while (0) 


15 fdefine read lock irq(lock) do { local ira disable( ) 
read lock(lock); } while (0) 
16 #define read lock bh(locl) do { local bh disable( );^ 


read lock(lock); } while (0) 


18 Hdefine write lock irasave(lock, flags) do { local irq save(flags);^ 
write lock(lock); } while (0) 


19 Sdefine write lock irq(lock) do { local. irq disableC );\ 
write lock(lock); } while (0) 
20 define write lock bh(lock) do { focal bh disable( );^ 


write lock(lock); ) while (0) 


22 define spin unlock irqrestore(lock, llags) do | spin_unlock (lock) ;\ 
local irq restore(flags): ) while (0) 


23 define spin unlock irq(lock) do { spin unlock (lock) ;\ 
local irq enable( ): ] while (0) 
24 define spin unlock bh(lock) do { spin unlock(lock) :\ 


local bh enable( ); } while (0) 


26 &define read unlock irqrestore(lock, flags) do { read_unlock (lock) ;\ 
local irg restore(flags): } while (0) 
27 Hdefine read unlock irq (lock) do | read unlock (lock) ;^ 
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local irq enable( ); } while (0) 
28 Hdefine read unlock bh(lock) do { read_unlock (lock) ;\ 
local bh enable( ); } while (0) 


29 
30 #define write unlock irgrestore(lock, flags) do { write unlock(lock);W 
local irq restore(flags); ] while (0) 


31 &define write unlock_irg(lock) do { write unlock (lock) ;\ 
local irq enable( ); ) while (0) 

32 define write unlock bh(lock) do { write unlock(lock); 
local bh enable( ): ) while (0) 


首先 来 看 看 同一 组 加 锁 操 作 之 半 的 不 同 。 例 如 ， spin lock irqsave( )5j spin lock irq( ) 之 间 的 区 别 
仪 企 才 前 者 调用 local_irq_save( ) 而 后 者 调用 local irg disable( )。 相 应 的 解锁 操作 spin. unlock. irgsave( ) 
与 spin unlock irq( ) 之 问 的 区 别 也 就 因此 而 不 同 ， 前 者 调用 local_irq_restore( ) rfj Ja # Va H 
local_irg_enable( ). | 

FOR Ae S 2H AS WER EAT ASA]. PRO, spin lock irq( ) 和 read, lock. irq( ) 之 间 的 区 虽 仅 在 
T dda aA spin_lock( ) 测 后 者 调用 read_lock( ). 

每 一 个 操作 都 包含 了 时 部 分 。 一 部 分 是 操作 名 以 local 开头 的 , 其 作用 是 关闭 或 开启 本 处 理 器 |: 的 
中 断 响应 。 男 “部 分 是 操作 名 以 _lock 结尾 的 ， 其 作用 是 防 正 来 自 其 他 处 理 器 的 干扰 。 我 们 先 来 看 处 理 
开 中 断 /关中 断 的 操作 ， 这 都 是 在 include/asm-i386/system.h 中 定义 的 ; 








304 #define local irq save(x) . asm volatile (pushfl ; popl %0 :\ 
cli^:^"-g" (x): /* no input */ :"memory^) 

305 define local irq restore(x) restore flags (x) 

306 #define local irq disable( )  cli( ) 

307  fdefine local irq enable( ) — sti() 


AP HL, local irq. save( ) 和 local irq disable( ) 者 通过 cli 指令 来 关闭 中 断 ， 但 是 前 者 先 把 当前 的 处 惠 
器 状态 标志 寄存 器 的 内 容 保存 起 来 ， 内 为 其 中 的 IF 标志 就 反映 当前 的 中 断 是 并 着 还 是 关 着 〈 指 令 oli 
SUE TO IF 标志 位 清 0)， 以 便 在 去 锁 时 加 以 恢复 。 由 于 状态 标志 寄存 器 并 非 通用 寄 施 器 ， 所 以 要 用 push 
和 pop 指令 经 过 堆栈 将 其 内 容 保存 刘 参 数 x 中 。 相 应 地 ， local_irq_restore( ) 与 local_irg_enable( ) 的 区 别 
也 在 十 此 。 

FORA spin_lock( )， 其 定义 在 spinlock.h "P: 


78 static inline void spin lock(spinlock t *lock) 


19 { 

80) #if SPINLOCK DEBUG 

81 __ label here; 

82 here: 

83 if (lock-^magic !- SPTNLOCK_MAGIC) { 
84 printk("eip: *pW/, &&here); 

85 BUG( ) ; 

86 ] 

87 Hendif 

88 __asm__ volatile. ( 


- 409 . 


Linux 内 核 源 代 色情 景 分 析 C EO 


89 spin lock string 
90 ."-m^ (lock->lock) : : "memory ^); 
91 o} 


参数 lock 的 类 型 为 spinlock_t， 定 义 于 include/asm-i386/spinlock.h: 


17 /* 

18 * Your basic SMP spinlocks, allowing only a single CPU anywhere 
19 */ 

20 

21 typedef struct { 

22 volatile unsigned int lock; 

23 Hif SPINLOCK DEBUG 

24 unsigned magic; 

20 Bendif 


26 ) spinlock t; 


如 果 不 考虑 庙 试 ， 这 实际 上 就 是 一 个 无 符号 整数 ， 但 是 这 样 有 利于 防止 ge 在 编 谋 过 程 加 以 有 害 
的 “优化 ”。 代 码 中 引用 的 spin. lock string 又 是 … 个 宏 定义 : 


50 #define spin_lock_string \ 


ol “\nl:\t” X 

52 "lock ; decb %0\n\t” \ 

53 "js 2f\n” \ 

54 ” section . text. lock, V axV'An" N 
55 “2:Nt AN 

56 “cmpb $0,%0\n\t” \ 

57 “repinop\n\t” \ 

58 “jle 2b\n\t” X 

59 “jmp lb\n” \ 

60 ” previous” 


这 里 的 %0 与 参数 lock->lock 相 结 合 。 这 申 的 指令 decb 将 操作 数 ， 即 lock->lock 减 1， 而 后 级 b 则 
表示 操作 数 为 8 位 。 这 条 指令 带 有 前 缕 “lock” 表示 在 执行 时 要 将 总 线 锁 住 ， 不 让 其 他 处 理 器 访问 ， 
以 此 来 保证 该 条 指令 执行 的 “原子 性 ”。 减 1 以 后 ， 要 是 结果 非 负 《符号 位 为 0) 则 加 锁 成 功 ， 所 以 就 
返回 了 。 如 果 发 现 减 1 以 后 的 结果 成 了 负数 ， 那 就 表示 已 经 有 其 他 操作 先 加 了 锁 ， 因 此 被 锁 人 在 了 门 外 ， 
这 时 就 转移 到 标号 “2” 处 循环 测试 ， 等 待 加 锁 者 去 锁 后 将 lock->lock 设置 成 大 于 0， 然后 又 试 者 加 锁 。 

从 代码 中 可 以 看 出 ， 如 果 lock->lock 的 值 原来 就 已 经 臣 0 或 负数 ， 则 处 理 器 不 断 地 循环 测试 它 的 
值 ， 衣 至 其 变 成 大 于 0 为 止 ， 所 以 才 有 spin lock 这 个 名 字 。 所 谓 spin MAE “VERE” HREM. BERE 
不 断 地 这 么 连 轴 转 ， 当 然 是 在 做 无 用 功 。 那 么 为 什么 不 像 在 对 信号 量 的 down ) 操 作 那 样 进入 睡眠 ， 把 
CPU 让 给 其 他 进程 来 做 些 有 用 功 昵 ? 这 是 因为 想 要 加 锁 的 这 段 程序 未 必 是 在 一 个 进程 的 上 下 文中 调用 
的 ， 它 可 能 调用 自 一 段 中 断 服务 程序 或 者 bh 函数 ， 根 本 就 不 是 可 调度 的 。 这 也 说 明 ， 加 锁 的 时 间 不 能 
太 长 ， 否 则 就 可 能 太 浪 费 了 。 

至 于 spin_unlock( ) 的 代码 那 就 很 简单 了 : 
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93 
94 
95 
96 
97 
98 
99 
100 
101 
102 
103 
104 


62 
63 
64 
65 
66 
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static inline void spin uniock(spinlock t *lock) 
{ 
#if SPINLOCK DEBUG 
if (lock->magic != SPINLOCK MAGIC) 
BUG( ) ; 
if (!spin is locked(lock)) 
BUG( ) ; 
#endif 
| asm |. volatile ( 
spin unlock string 
:”=m” (lock->lock) : : “memory”) ; 


} 


同样 ，spin_unlock_string 也 是 个 宏 定 义 : 


/* 
* This works. Despite all the confusion. 
*/ 
#define spin unlock string \ 
“movb $1, %0” 


代码 中 的 指令 movb 将 lock-»lock 设置 成 1， 如 此 而 已 。 这 条 指令 不 带 有 前 组 “lock”， 央 为 指令 
movb 的 操作 本 身 就 是 原 了 性 的 。 相 比 之 下 ， 前 面 的 指令 decb 因为 涉及 “ 读 一 改 一 写 ” 周 期 ， 所 以 从 
总 线 角 度 看 不 是 原子 性 的 。 

读者 也 许 会 问 ， 上 既然 被 锁 在 门 外 的 处 理 器 只 是 在 做 无 用 功 ， 那 为 何不 干脆 就 把 总 线 锁 了 ， 一 直到 
要 做 的 事情 完成 以 后 才 开 放 呢 ? 这 还 是 不 同 的 ， 正 在 连 轴 转 做 夸 用 功 的 处 理 器 仍 能 响应 中 断 。 而 如 果 
干脆 把 总 线 锁 了 那 就 连 中 断 也 不 能 响应 了 。 再 说 ， 系 统 中 也 还 可 能 有 其 他 处 理 器 ， 只 要 不 想 进 入 同 -- 
段 代码 或 受 同 一 把 锁 保 护 的 代码 ， 就 可 以 继续 运行 。 

再 来 看 read_lock( ) 和 write_lock( )， 其 实现 也 是 大 同 小 异 ， 我 们 把 这 些 代 码 〈 也 在 spinlock.h 中 ) 


留 给 读者 自己 阅读 : 

135 /* 

136 * On x86, we implement read-write locks as a 32-bit counter 
137 * with the high bit (sign) being the “contended” bit. 

138 * 

139 * The inline assembly is non-obvious. Think about it. 

140 * 

141 * Changed to use the same technique as rw semaphores. See 
142 * semaphore.h for details. -ben 

143 */ 

144 /* the spinlock helpers are in arch/i386/kernel/semaphore. S */ 
145 

146 static inline void read lock(rwlock t *rw) 

147 { 

148 Hif SPINLOCK DEBUG 

149 if (rw->magic != RWLOCK MAGIC) 


- 411. 


150 
Lol 
152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 
164 


165 
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BUG( ); 
#endif 


| build read lock(rw, " read lock failed"); 





) 


static inline void write lock(rwlock t *rw) 
{ 
#if SPINLOCK DEBUG 
if (rw magic != RWLOCK MAGIC) 
BUG ( ) ; 
#endif 
__ build write lock (rw, 


a 


} 


Hdefine read unlock(rw) asm volatile( lock ; incl %0” \ 


“=m” ((rw)-»lock) : : “memory”) 


^ write lock failed"); 


define write unlock(rw) asm volatile( lock ; V 


代码 中 引用 的 -一 些 宏 操 作 和 宏 定义 为 : 


#define RW LOCK BIAS 0x01000000 
#define RW LOCK BIAS STR “0x01000000 


#define | build read lock ptr(rw, helper) ^ 


asm volatile(LOCK "subl $1, (%0)\n\t” \ 
“js 2f\n" \ , 
In N 
” section . text. lock, Vax \ \n” \ 
”“2:\tceall " helper “\n\t” \ 
” imp 1b\n” \ 
” previous” \ 
:i"a^" (rw) : “memory” ) 


Hdefine | build read lock const (rw, helper) 
asm volatile(LOCK "subl $1,%0\n\t” \ 
"js 2f\n" \ 
“1:\n” \ 
" section . text. lock, \V ax\ An \ 
“2:\tpushl %eax\n\t” \ 
"leal %0, %%eax\n\t” \ 
"call ” helper “\n\t” \ 
"popl %%eax\n\t” \ 
“jmp lb\n” \ 
” previous” V 
:“om” (*(volatile int *)rw) 


. 412. 


\ 


Ld ^H 
:oi lmemory^) 


H “a” 
: : “memory” ) 


第 4 章 进程 与 进程 调度 
46 #define __ build read lockírw, helper) do { \ 





47 if (builtin constant p(rw)) V 

48 __build_read lock const (rw, helper); V 
49 else \ 

50 __build_read lock ptr(rw, helper); \ 
51 } while (0) 

52 

53 Hdefine __ build write lock ptr (rw, helper) X 

54 asm volatile(LOCK "subl $” RW LOCK BIAS STR ^", (%0)\n\t” \ 

55 “jnz 2f\n” \ 

56 LANA A 

57 ". section . text. lock, V axV \n” \ 

58 "^2:NXtcall " helper “\n\t” \ 

59 “jmp lb\n” \ 

60 ” previous" V 

61 :i^"a^" (rw) : “memory”) 

62 

63 Sdefine | build write lock const(rw, helper) \ 

64 asm volatile(LOCK “sub] $^ RW LOCK BIAS STR ^, (%0) \n\t” \ 

65 “jnz 2f\n” -X 

66 "LANN X 

67 ^. section . text. lock, V'axV An \ 

68 | “2:\tpushl %%eax\n\t” \ 

69 "leal %0, %%eax\n\t” \ 

70 “call " helper “\n\t” \ 

71 "popl %%eax\n\t” \ 

72 “jmp lb\n” \ 

73 ” previous” \ 

74. :"-m^ (*(volatile int *)rw) : : “memory”) 

75 

76 define __build_write_lock(rw, helper) do { \ 

77 if ( builtin constant p(rw)) V 

78 | | . build write lock const(rw, helper); V 
79 else \ 

80 __build_write_lock ptr(rw, helper); V 
81 } while (0) 


iB Hi build read lock( ) #__ build_write_lock( 7 时 的 第 二 个 参数 者 是 函数 指针 ， 分 别 为 
. read lock failed Ml read lock failed (M 152 行 和 161 行 )， 其 代码 如 N: | 
496 — tif defined(CONFIG SMP) 
421 asm( 
428 ^ 
429 .align 4 
430 .globi __ write lock failed 
431 . write lock failed: 
432 ^ LOCK "addl $” RW LOCK BIAS STR ”, (%eax) 
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433 1: cmpl $” RW LOCK BIAS STR ^, (eax) 


434 jne 1b 

435 

436 " LOCK “subl $" RW LOCK BIAS STR ^, (%eax) 
437 jnz | write lock failed 

438 ret 

439 

440 


44] .align 4 
442 .globl | read lock failed 


443 _ read lock failed: 
444 lock ; incl (%eax) 
445 1: cmpl $1, (Seax) 
446 js Lb 

447 

448 lock ; decl (%eax) 
449 js . read lock failed 
450 ret 

451 2 

452 Ja 

453 #endif 


值得 指出 的 是 ， 如 果 CPU 进入 了 一 段 加 锁 的 代码 A 以 后 又 企图 进入 另 一 段 加 锁 的 代码 B， 那 就 有 
可 能 在 那里 被 关 在 门 外 ， 而 如 果 已 经 在 B 中 的 处 理 器 恰好 义 因 企图 进入 A 而 也 被 关 在 了 门 外 ， 因 此 两 
个 处 理 器 都 陷入 了 连 轴 转 ， 那 就 形成 了 死 锁 。 这 跟 在 信号 量 上 通过 down ) 操 作 崔 套 地 进入 了 临界 区 时 
呈 能 会 形成 的 死 锁 是 一 致 的 。 防 止 此 种 死 锁 的 手段 主 此 有 : 

(1) 不 允许 在 进入 加 锁 的 代码 以 后 再 进入 其 他 加 锁 的 代码 ， 这 是 最 简单 的 。 

(2) 如 果 人 允许 这 样 做 的 话 ， 就 要 为 所 有 加 锁 的 代码 段 建立 一 个 统一 的 次 序 ， 例 如 必须 是 先进 入 A 

JEŽA B. 

目前 的 Linux 内 核 中 尚未 采取 措施 米 防止 这 种 死 锁 ， 这 也 有 待 十 将 来 进一步 的 改进 。 个 过 ， 并 非 
每 个 程序 员 都 需要 编写 在 内 核 中 运行 的 程序 ， 负 责 开发 内 核 程 序 ( 如 设备 驱动 ) 的 程序 员 通 常 总 是 比 
较 有 经 验 、 水 平 比较 高 的 人 ， 他 们 自 会 注意 这 个 问题 。 另 一 方面 ，Linux 系统 中 的 多 数 资源 都 是 可 共享 
的 ， 需 要 放 在 临界 区 中 或 者 加 锁 的 代码 是 很 少 、 很 短 的 。 所 以 ， 在 实际 使 用 中 死 锁 并 不 是 一 个 很 现实 
的 问题 。 

还 有 ， 净 界 区 和 加 锁 在 概念 上 是 类 似 的 ， 但 对 系统 影响 的 程度 却 不 同 ， 所 以 在 使 用 时 要 加 以 区 分 。 
如 果 不 问 青红皂白 ， 动 不 动 就 加 锁 ， 邦 就 好 像 为 了 抓 小 偷 而 全 城 戒严 一 样 ， 属 于 “ 防 光 过 当 ”J。 


| dd. 


COT 





5.1] 概述 


者 昌 问 构 成 一 个 “操作 系统 ”的 最 重要 的 部 件 是 什么 ， 那 就 莫 过 于 进程 管理 和 文件 系统 了 。 事 实 
上 ， 有 些 操作 系统 〈 如 一 些 “ 峙 入 式 ” 系 统 ) 可 外 理 而 没有 文件 系统 ; bs HEP ASE Cou 
MSDOS) 则 有 闵 件 系统 而 没有 进程 管理 。 可 是 ， 瞄 是 :者 部 没有 ， 那 就 称 不 上 “操作 系统 ”了 。 在 本 
书 的 前 儿童 中 已 经 讲述 了 与 Linux. 的 进程 管理 有 关 的 内 容 ， 从 现在 并 始 ， 让 我 们 把 注意 力 转向 它 的 文 
件 系统 。 
“文件 系统 ”这 个 问 的 含义 比较 模糊 。 首 先 ， 其 中 “文件 ”的 含义 就 有 狭义 与 广义 之 分 。 狭 义 地 
说 ,“ 文 件 ” 是 指 “ 磁 盘 义 件 ”， 进 而 可 以 是 有 组 织 有 次 序 地 存储 于 任何 介质 (包括 内 存 ) 中 的 -组 信 
Ro 广义 地 说 ， 则 Unix 从 开始 时 就 把 外 部 设备 都 当成 “文件 ”。 从 这 个 意义 上 讲 ， 凡 是 可 以 产生 或 
消耗 信息 的 都 是 文件 。 以 主 网 络 环境 中 用 来 收发 报 文 的 “ 插 门 ”机制 来 说 ， 它 就 并 不 代表 存储 着 的 信 
奶 ， 但 是 插口 的 发 送 端 “消耗 ”信息 ， 而 接收 端 则 “ 产 出 ”信息 ， 所 以 把 手 口 看 成 文件 是 合乎 逻辑 的 。 
可 是 ， 即 使 抛 开 “文件 ”这 个 词 的 模糊 性 不 说 ,“ 文 件 系统 ”这 个 问 又 进步 有 几 种 不 同 的 含义 ， 要 根 
据 上 下 文才 能 加 以 区 分 : 
(D 18 -种 特定 的 文件 格式 。 例 如 ， 我 们 说 Linux 的 文件 系统 是 ExO. MSDOS 的 文件 系统 是 
FAT16， 而 Windows NT 的 义 件 系统 起 NTFS 或 FAT32， 就 是 指 这 个 意思 。 

(2) 指控 特定 格式 进行 了 “格式 化 ”的 块 存储 介质 。 当 我 们 说 “安装 ”或 “拆卸 ”-~ 个 文件 系 
统 时 ， 指 的 就 是 这 个 意思 。 

(3) ” 指 操作 系统 中 (通常 在 内 核 沾 〉 用 来 管理 文件 系统 以 及 对 文件 进行 操作 的 机 制 及 其 实现 ， 这 
就 是 本 章 的 主要 话题 。 

Linux 最 初 采 用 的 是 minix 的 文件 系统 ， 但 是 minix 只 是 一 种 实验 性 《用 十 教学 ) 的 操作 系统 ， 其 
文件 系统 的 大 小 仅 限 于 64M 字 节 ， 文 件 名 长 度 限 于 14 个 字符 。 所 以 ， 经 过 一 段 时 间 的 改进 和 发 展 ， 
特别 是 吸取 了 多 年 来 对 传统 Unix 文件 系统 的 各 种 改进 所 罕 积 起 的 经 验 ， 最 后 形成 了 现在 的 Ext2 文件 
系统 。 这 个 文件 系统 可 以 说 就 是 “Linux 文件 系统 ”。 

PR Linux ABA CEASE Ext2 外 ， 设 计 和 人员 很 早 就 注意 到 了 如 何 使 Linux 支持 其 他 各 种 不 同文 件 
系统 的 问题 。 要 实 岗 这 个 目的 ， 就 要 将 对 各 种 不 同文 件 系 统 的 操作 和 管理 纳入 到 … 个 统一 -的 杠 架 中 。 
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让 内 核 中 的 文件 系统 界 而 成 为 “条 文件 系统 “总 线 ” 使 得 用 户 程序 串 以 通过 同一 个 文件 系统 操作 内面， 
也 就 是 同一 组 系统 调用 ， 对 各 种 不 同 的 文件 系统 〈 以 及 文件 》 进行 操作 。 这 样 ， 就 可 以 对 几 户 程序 隐 
去 各 种 不 同文 件 系统 的 实现 细节 ， 为 用 户 程序 提供 一 个 统一 的 、 抽 象 的 、 虚 拟 的 文件 系统 内 而 ， 这 就 
是 所 谓 “ 虚 拟 文 件 系 统 ”VFS (Virtual Filesystem Switch). IARE AREEN ABRE. iR 
文件 操作 构成 ， 以 系统 调用 的 形式 提供 十 用 户 程序 ， 如 read( )、write( ). Iseek( ) 等 等 。 这 样 ， 用 户 程 
序 就 可 以 把 所 有 的 交 件 都 看 作 一 致 的 、 抽 象 的 “VFS 文件 ”， 遂 过 这 些 系 统 调用 对 文件 进行 操作 ， 而 无 
需 关心 具体 的 多 件 属 十 什么 文件 系统 以 及 具体 文件 系统 的 设计 和 实现 。 例 如 ， 让 Linux 操作 系统 中 ， 
可 以 将 DOS 格式 的 磁 鼻 或 分 区 《〈 即 文件 系统 )“ 安 装 ” 到 系统 中 ， 然 后 用 户 程 序 就 可 以 按 完全 相同 的 
Ji NY IKE SCP, RT RE TB ab Ext2 格式 的 文件 一 样 。 

如 果 把 内 核 比 拟 为 PC 机 中 的 “ 母 板 ” FE VES ERA “BEAR” bf “SR”, TART A 
的 文件 系统 就 好 像 一 由“ 接口 卡 ”。 不 同 的 接口 卡 上 有 不 同 的 电子 线路 ， 但 是 它们 与 搬 槽 的 连接 有 几 条 
线 、 每 条 线 十 什么 用 则 是 有 明确 定义 的 。 同 样 ， 不 同 的 文件 系统 通过 不 同 的 程序 来 实 坝 其 各 种 功能 ， 
但 是 与 VES 之 间 的 界面 则 是 有 明确 定义 的 。 这 个 界面 的 主体 就 是 一 个 file_operations 数据 结构 ， 其 定 
义 在 include/linux/fs.h FP: 


768 /* 

769 * NOTE: 

770 * read, write, poll, fsync, readv, writev can be called 

771 * without the big kernel lock held in all filesystems. 

772 */ 

773 struct file operations { 

774 struct module *owner; 

775 loff t (kllseek) (struct file *, loff t, int); 

776 ssize t (read) (struct file *, char *, size t, loff t *); 

777 ssize t (#write) (struct file *, const char *, size t, loff t *); 

778 int (kreaddir) (struct file *, void *, filldir 0); 

779 unsigned int (*poll) (struct file *, struct poll table struct *); 

780 int (kioctl) (struct inode *, struct (ile *, unsigned int, unsigned long); 
781 int Ckmmap) (struct file *, struct vm area struct *); 

182 int (open) (struct inode *, struct file *); 

783 int Ckflush) (struct file *); 

784 int (krelease) (struct inode *, struct file *) ; 

785 int Okfsync) (struct file *, struct dentry *, int datasync); 

786 int (#fasync) (int, struct file *, int); 

787 int (*lock) (struct file *, int, struct file lock *); 

788 ssize t (*readv) (struct file *, const struct iovec *, unsigned long, loff t *); 
789 ssive_t Ckwritev) (struct file *, const struct iovec *, unsigned long, loff t ¥); 
790}; 


每 种 义 件 系统 都 有 自己 的 fle_operations KARA, £k rp Ir ILE 5 AER SET. BrUSE bo E 
是 个 函数 跳 转 表 ， 例 如 read iE 81] AA SCH SEM RSI C UEBRTE IN UL eR. RRAK 
统 不 支持 某 种 操作 ， 其 file_eperations 结构 中 的 相应 函数 指针 就 是 NULL。 我 们 不 在 这 时 介绍 这 个 结构 
中 各 种 指针 的 用 途 ， 以 后 读者 将 会 看 到 其 中 主 过 的 … 些 操作 的 典 起 代码 。 

每 个 进程 通 过 “打开 文件 ”(open( )) 与 其 体 的 文件 建立 起 连接 ， 或 者 说 建立 起 一 个 读 写 的 “上 下 
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XC". 这 种 连接 以 一 个 file 数据 结构 作为 代表 ,结构 中 有 个 file_operations 结构 指针 fop。 将 fie 结构 中 
的 指针 f£ op 设置 成 指向 某 个 具体 的 file operations 结构 ， 就 指定 了 这 个 文件 所 属 的 文件 系统 ， 并 有 与 
HAM ARREARS ESP, RITA “ROR” MART “fat? bh ik ee 
后 会 看 到 有 关 的 详情 。 

Linux 内 核 中 对 VFS 与 具体 文件 系统 的 关系 划分 可 以 用 图 5.1 表示 。 







用 户 空间 用 户 程序 《进程 ) 
文件 系统 操作 的 系统 调用 界 
Ee ee ee AR i, 448 read( ). write( ). 
open( ). close( ) 等 等 
TRAE Hg] 


函数 sys read( ). sys_write( )、 
sys open( ) 等 等 


道 过 file 结构 中 的 f_op #8 
儿 实 现 的 "文件 系统 总 线 ” 


pj REX 


图 5. 1 VFS 与 具体 文件 系统 的 关系 示意 图 


进程 邱 文 件 的 连接 ， 即 “已 打 并 文件 >， 是 进程 的 -项 “财产 ” 归 基 体 的 进程 所 有 。 代 表 着 这 种 
连接 的 file 结构 必然 与 代表 着 进程 的 task_struct 数据 结构 存在 着 联系 。 在 “进程 与 进程 调度 ”… 章 中 我 
们 看 过 这 个 数据 结构 的 定义 ， 但 是 那 时 候 忽 赂 了 与 文件 系统 有 关 的 内 容 。 现 在 折 task struct. 结 爸 中 与 
此 有 关 的 几 行 再 列 出 如 下 (include/linux/sched.h): 


277 struct task struct Í 

375 /* filesystem information */ 
376 struct fs struct *fs; 
377 / open file information */ 
378 struct files struct *files: 


397 hi 


这 里 有 两 个 指针 fs 和 files， 一 个 指向 fs struct 数据 结构 ， 是 关于 文件 系统 的 信息 ; 另 一 个 指向 
files struct 数据 结构 , 是 天 于 已 打 井 文件 的 信息 。 先 看 fs_struct Hits, 它 的 定义 在 include/linux/fs_struct.h 
ift, 


5 struct fs struct : 
6 atomic t count; 
7 rwlock t lock; 
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8 int umask ; 

9 struct dentry * root, * pwd, * altroot; 

10 struct vfsmount * rootmnt, * pwdmnt, * altrootmnt; 
11 Is 


结构 小 有 六 个 指针 。 前 三 个 是 dentry 结构 指 外， 就 是 root, pwd 以 及 altroot。 这 些 指针 各 自 指向 代 
表 着 -个 “目录 项 ”的 dentry 数据 结构 ， 里 向 记录 着 文件 的 各 项 属性 ， 如 文件 名 、 访 问 权 限 等 等 。 其 
中 pwd 则 指向 进程 当前 所 在 的 目录 ; 而 root 所 指向 的 dentry 结构 代表 着 本 进程 的 “ 根 目 求 "， 那 天 是 
当 用 户 登 录 进 入 系统 时 所 “看 到 ”的 根 日 孙 ; ZF altroot 则 为 用 户 疫 置 的 “替换 根 日 录 ”， 我 们 以 后 还 
会 讲 到 。 实 际 运行 时 这 二 个 目录 不 一 定 都 在 同一 个 文件 系统 中 ， 例 如 进程 的 根 日 水 通常 是 安 装 寺 “ 九 
节点 上 的 Ext2 文件 系统 中 ， 而 当前 工作 目录 则 可 能 安装 于 /dosc 的 一 个 DOS 文件 系统 中 。 在 文件 系统 
的 操作 中 这 些 安装 点 起 郑重 要 的 作用 而 常常 此 用 到 ， 所 以 后 三 个 指针 就 各 站 措 癌 代表 者 这些“ 安 疫 ” 
的 vfsmount 数据 结构 。 注 意 ，fs_struct 结构 中 的 信息 都 是 与 文件 系统 和 进程 有 关 的 ， 带 有 全 局 性 的 (对 
具体 的 进程 而 言 )， 而 与 具体 的 己 打 开 文件 没有 什么 关系 。 例 如 进程 的 根 日 录 在 Ext2 文件 系统 中 ， 当 
前 工作 日 录 在 DOS 文件 系统 中 ， 而 :个 员 体 的 已 打开 文件 却 可 能 是 设备 文件 。 

与 具体 已 打开 文件 有 关 的 信息 在 file 结构 中 ， 而 files_struct 结构 的 主体 就 是 个 file 结构 数组 。 每 
打开 一 个 文件 以 后 ， 进 程 就 通过 .个 “打开 文件 号 ”fid 来 访问 这 个 文件 , 而 fid 实际 上 就 是 相应 file 5i 
构 在 数组 中 的 下 标 。 如 前 所 述 , RE file 结构 中 有 个 指针 人 f_op, 指向 该 文件 所 属 文 件 系统 的 旬 e_operations 
数据 结构。 同时 ，file 结构 中 还 有 个 指针 f_dentry， 指 向 该 文件 的 dentry 数据 结构 。 那 么 ， 为 什么 不 干 
脆 把 文件 的 dentry 结构 放 在 file 结构 里 面 , 而 只 是 计 file 结构 通过 指针 来 指向 它 昵 ? 这 是 内 为 “个 文件 
只 有 个 dentry 数据 结构 ， 而 可 能 有 多 个 进程 打开 它 ， 甚 至 同一 个 进程 也 可 能 多 次 打开 它 而 建立 起 多 
MEH ERIC. AE, 每 种 文件 系统 只 有 一 个 fle_operations 数据 结构 ,， 它 昧 不 专属 村 某 个 特定 的 文件 ， 
更 不 专属 于 某 个 特定 的 上 下 文 。 

每 个 文件 除 有 一 个 “目录 项 ” 即 dentry 数据 结构 以 外 ， 还 有 个 “索引 节点 ” 即 inode 数据 结构 ， 
里 面 记录 着 文件 在 存储 介质 十 的 位 置 与 分 布 等 信息 。 同 时 ，dentry 结构 中 有 个 inode 结构 指针 d_inode 
指向 相应 的 inode 结构 。 读 者 也 许 要 问 ， 既然 个 文件 的 dentry 结构 和 inode 结构 都 在 从 不 同 的 角度 描 
述 这 个 文件 各 方面 的 属性 ， 奢 为 什么 不 “ 合 二 为 一 ”， 而 要 “ -分 为 二 ” 昵 ? 其 实 ，dentry 结构 与 inode 
结构 所 描述 的 日 标 是 不 同 的 ， 因 为 一 个 文件 可 能 有 好多 个 文件 名 ， 而 通过 不 同 的 文件 名 访问 同一 个 文 
件 时 的 权限 也 可 能 不 同 。 所 以 ，dentry 结构 所 代表 的 是 风 辑 意义 上 的 文件， 记录 的 是 其 逻辑 上 的 属性 .。 
而 inode 结构 所 代表 的 是 物理 意义 上 的 文件 , 记录 的 是 其 物理 上 的 属性 ; 它们 之 间 的 关系 是 多 对 一 的 关 
系 。 

前 面 我 们 说 虚拟 闵 件 系统 VES 与 共 体 的 文件 系统 之 间 的 界面 的 “主体 ”是 file operations 数据 结 
构 ， 是 因为 除 此 之 外 还 有 一 些 其 他 的 数据 结 钧 。 其 中 主要 的 还 有 与 日 录 项 由 联系 的 dentry_operations 
数据 结构 和 与 索引 节点 相 联 系 的 inode_operations 数据 结构 。 这 两 个 数据 结构 中 的 内 容 也 都 是 … 些 函数 
指针 ， 但 足 这 些 函数 大 多 只 是 在 打开 文件 的 过 程 中 使 用 ， 或 者 仅 在 文件 操作 的 “底层 ” 使 用 《如 分 配 
空间 ), 所 以 不 像 fije_operations 结构 中 那些 贸 数 那么 常用 , 或 痢 不 那么 有 “ 知名度"。 以 dentry_operations 
为 例 ， 其 定义 在 include/linux/dcache.h '!': 


79 struct dentry operations | 
80 int (*d revalidate) (struct dentry *, int); 
81 int (kd hash) (struct dentry *, struct qstr *); 
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82 int (*d_compare) (struct dentry *, struct qstr *, struct qstr *); 
83 int (*d delete) (struct dentry *); 

84 void (*d release) (struct dentry *); 

85 void (#d_iput) (struct dentry *, struct inode *); 

86 }; 


这 里 d delete 是 指向 有 具体 文件 系统 的 “删除 文件 ”操作 的 入 口 函数 ，d_release 则 用 于 “关闭 文件 ” 
WE. ATMA d compare 很 有 意思 ， 它 用 于 文件 名 的 比 对 。 读 者 可 能 感到 奇怪 ， 文 件 名 的 比 
对 就 是 字符 串 的 比 对 ， 这 难道 也 畴 文件 系统 而 异 ? 其 实 不 足 为 奇 ， 想 - 想 : 有 的 文件 系统 中 文件 名 的 
长 度 限于 8 个 字符 ， 有 的 则 可 以 有 255 SE: 有 的 文件 系统 容许 在 文件 名 里 有 空格 ， 有 的 则 不 容许 ; 
有 的 支持 汉 宁 ， 有 的 则 不 支持 。 所 以 ， 文 件 名 的 比 对 确实 因 文 件 系统 而 异 。 

总 之 ， 具 体 文件 系统 与 虚拟 文件 系统 VES 间 的 界面 是 一 组 数据 结构 ， 包 括 file operations. 
dentry_operations、inode_operations， 还 有 其 他 《此 处 暂 从 略 ?。 原 则 上 每 种 文件 系统 都 必须 在 内 核 中 提 
供 这 些 数据 结构 ， 后 面 我们 还 此 深入 讨论 。 

虽然 我 们 尚未 深入 地 讲述 文件 系统 的 内 部 结构 和 操作 ,读者 可 以 从 图 5.2 看 到 文件 系统 内 部 结构 的 
基本 情况 。 我 们 姑且 称 之 为 “文件 系统 逻辑 结构 图 ” 以 后 读者 将 需要 反复 地 国 过 来 看 这 幅 结构 示意 图 。 
至 于 这 幅 图 中 各 个 数据 结构 的 分 配 与 设置 ， 也 就 是 这 幅 图 的 构筑 ， 则 会 在 “打开 文件 ”一 节 中 叙述 。 


dentry 







d_inode |p 进程 (用 户 ) 根 日 录 的 inode 







fs_struct 


task_struct 





dentry_operations Linode_opcrations 


5.2 Linux 文件 系统 逻辑 结构 图 


JA. Linux BUSCAR HERAT ASE? 数据 结构 inode 中 有 一 个 成 分 u， 是 一 个 union. 
根据 具体 文件 系统 的 不 同 ， 可 以 将 这 个 union 解释 成 不 同 的 数据 结构 。 例 如 ， 当 inode 所 代表 的 文件 是 
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个 插口 〈socket) 时，u 就 用 作 socket 数据 结构 ， 当 inode 所 代表 的 文件 属于 Ext2 文件 系统 时 ，u 就 用 
VE Ext2 文件 系统 的 详细 描述 结构 ext2_inode_info. ATLL, 看 一 下 对 这 个 union 的 定义 可 可 以 看 出 Linux 
日 前 支持 多 少 种 文件 系统 ， 这 个 定义 是 inode 数据 结构 定义 的 部分， 在 文件 include/linux/fs.h P: 


433 union { 

434 struct minix inode info minix i; 
435. struct ext2 inode info ext2 1; 
436 struct hpfs inode_info hpfs_i; 
437 l struct ntfs inode_info ntfs i; 
438 ‘struct msdos inode info msdos i; 
439 struct umsdos inode info umsdos i; 
440 struct iso inode info isofs i; 
44] struct nfs_inode_info nfs i; 
442 struct sysv inode info sysv i; 
443 struct affs inode info affs i; 
444 struct ufs inode info ufs 1; 
445 | struct efs inode info efs 1; 
446 | struct romfs inode info romís i; 
447 struct shmem inode info shmem i; 
448 struct coda inode info coda i; 
449 struct smb inode info smbfs 1i; 
450 struct hfs inode info litis 33, 
451 struct adfs inode info adfs i; 
452 struct qnx4 inode info qnx4 i; 
453 struct bfs inode info bfs i; 
454 struct udf inode info udf i; 
455 struct ncp inode info ncpfs i; 
456 struct proc inode info proc i; 
457 siruct socket socket i; 
458 struct usbdev inode info usbdev i; 
459 void *generic ip; 
460 t u; 


Hop Ales} ATT AUB ES, fl ext2, msdos 等 ， 但 是 多 数 部 需要 一 点 简短 的 说 明 : 

hpfs 一 一 IBM 为 PC 开发 的 OS/2 吉 作 系统 所 采用 的 文件 系统 。 这 种 格 虑 只 用 十 硬 极 ， 而 OS/2 
所 用 的 软盘 则 与 msdos 相同 。 

ntfs 一 一 Windows NT 的 文件 系统 。 

umsdos 一 一 -种 特殊 的 “文件 系统 ” 用 msdos 文件 系统 来 模拟 Ext2 文件 系统 。 其 好 处 足 可 以 
在 磁盘 | 的 DOS 分 区 中 直接 运行 Linnx， 而 不 需 虹 先 重新 划 区 并 格式 化 。 坏 处 当然 也 不 
^b, 首先 是 降低 了 运行 的 速度 , 而 且 这 样 来 就 对 DOS 文件 系统 的 病毒 失去 了 “免疫 力 ”。 

isofs HF CDROM (tit). 

nfs 一 一 “网 络 文件 系统 ”NFS。 

sysy 一 一 Unix 系统 V 的 文件 系统 S5FS 。 

affs 一 一 BSD 对 SSFS 作 了 很 大 的 改进 ， 改 进 后 的 文件 系统 称 为 “快速 文件 系统 ”FFS。 由 才 当 
时 Amiga 公司 在 其 操作 系统 AmigaOS 路 采用 了 这 种 文件 系统 ， 所 以 称 为 affs。 








- 420 . 


BSB RA 
ufs 一 一 这 是 FFS 的 另 一 种 实现 ， 广 泛 适 用 于 BSD 的 各 种 版 本 以 及 各 种 Unix 变种 (如 sunOS、 
solaris, FreeBSD, NetBSD. OpenBSD 以 及 Nextstep 等 等 ) 版 本 , 氏 而 实际 上 成 为 了 “Unix 
File System”， 所 以 称 为 ufs. 
efs —— Silicon Graphics 的 IRIX 文件 系统 。 




















romfs “只 谈 "文件 系统 。 顾名思义 , 这 种 文件 系统 可 以 建立 在 只 读 介质 上 , 如 EPROM, PROM 
等 。 还 有 个 特点 吓 这 种 文件 系统 的 实现 在 内 核 中 所 占 的 “地 要 ”很 小 。 例 如 ，msdos 
义 件 系统 在 内 核 中 约 点 30K FA, nfs 文件 系统 约 占 57K 字 节 ， 而 romfs Hir UBI. 
所 以 ，romfs $ fi Ch BOA Fe RA” AL 

coda 也 是 - 种 网 络 文件 系统 ， 是 对 nfs 的 一 种 改进 。 

smbfs BR samba, {Ë Win 95, Win NT 等 系统 可 以 通过 网 络 访问 Linux 义 件 系统 。 

hfs Apple Macintosh 的 文件 系统 。 

adfs Acom 公司 开发 了 RE D ARM 处 理 器 的 RISC PC， 其 操作 系统 称 为 RISCOS， 而 文 
件 系 统 旭 为 “Acorn Disk Filing System”. 

qnx4 QNX àb 个 操作 系统 ， 常 用 十 “ 恢 入 式 ” 系 统 ， 其 文件 系统 为 QNXFS. 





bfs —— H F SCO Unix Ware 的 VY 一 种 文件 系统 | 
udf 一 一 “Universal Disk File” 最 新 的 “通用 文件 系统 ” WA DVD 和 可 写 光盘 ， 也 可 用 于 硬 


# 
ncpfs 一 一 Novell NetWare 文件 系统 。 
proc 一 一 Flox/proc 下 的 特 蛛 文件 ， 这 些 文件 对 系统 管理 和 程序 调试 都 很 有 用 处 。 
usbdev 一 一 “通过 串 行 总 线 ”USB 的 驱动 程序 。 


这 个 union 的 定义 内 是 大 致 地 反映 了 Linux 内 核 上 县 前 所 支持 的 各 种 文件 系统 ， 因 为 这 是 以 inode 结 
构 中 这 一 部 分 空间 的 不 同 用 法 和 解释 为 基础 的 。 如 果 两 种 文件 系统 对 这 个 union 的 解释 相同 ， 那 就 不 
能 从 这 个 定义 中 有 反映 出 来 了 。 

举例 来 说 ， 早 期 Linux 曾 开发 和 使 用 了 另 - 个 文件 系统 ext (还 有 一 个 文件 系统 叫 Xiafs )， 后 来 才 
ALT Bl Ext2( 衣 示 ext 第 2 版 ), 现在 的 Linux 内 核 也 还 支持 这 个 文件 系统 (读者 可 以 用 命令 “man mount” 
或 “man fs” 察 看 )， 但 是 由 十 它 在 inode 结构 中 对 u 的 解释 与 Ext2 相同 ， 这 里 就 看 不 出 来 了 。 另 一 方 
Al, 虽然 原 则 十 每 个 文件 系统 都 有 其 自身 的 函数 帐 转 表 ， 即 file operations 数据 结构 ， 但 是 有 反 过 米 说 ， 
每 个 fle_operations 结构 都 代表 着 -一 个 人 不同 的 义 件 系统 就 不 确切 了 。 读 者 以 后 在 第 6 章 的 “管道 ”一 节 
中 可 以 看 到 ， 就 在 Ext2 文件 系统 的 框架 路 ， 光 是 用 作 管道 的 文件 就 根据 读 、 写 权限 的 不 同 而 有 一 个 不 
问 的 file operations 结构 。 

LA, Æ Linux 系统 中 外 部 设备 是 视 问 文件 的 ， 所 以 从 概念 上 讲 每 种 不 同 的 外 部 设备 浆 相 当 十 一 
种 不 回 的 文件 系统 。 可 是 ， 在 这 个 union 的 定义 中 却 只 列 出 了 usbdev 作为 一 种 独立 的 文件 系统 ， 那 么 
“ 块 设备 ”又 怎样 ? “FRE” LEE? “网 络 设备 ”又 怎样 ? 为 什么 这 里 都 没有 呢 ? 原因 就 在 才 
这 些 设 备 都 不 要 求 将 inode 结构 中 的 这 个 union 作 不 同 的 解释 ， 癌 样 的 道 惠 ， 对 “特殊 文件 ” IX" RB 
列 出 了 proc 与 socket， 但 是 用 来 实现 “命名 管道 ”的 另 一 种 特 冻 文件 FIFO 就 没有 在 这 里 单独 地 列 出 。 

所 以 ，inode 结构 中 的 这 个 union 反映 了 各 种 文件 系统 在 部 分 数据 结构 上 的 不 同 ， 而 file operations 
结构 则 反应 了 它们 人 在 算法 (操作 ) 上 的 不 同 。 

当 一 个 文件 系统 代表 者 磁盘 〈 或 其 他 介质 ) 上 按 特定 格式 组 织 的 文件 时 ， 对 每 个 文件 的 操作 最 终 
都 要 转化 为 对 某 一 部 分 磁盘 介质 的 操作 ， 所 以 从 层次 的 观点 来 看 ， 在 “文件 系统 ”以 下 还 有 一 层 “ 设 
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AIK”. 可是， 既然 设备 〈 实 际 上 是 设备 驱动 ) 也 是 视 作 文件 的 ， 那 么 作为 与 文件 “ 平 级 ”的 磁盘 设 
备 “文件 ” 与 作为 文件 系统 “底层 ”的 磁盘 “设备 ”又 有 什么 区 别 呢 ? 这 实际 上 反映 了 对 磁盘 介质 上 
的 数据 的 两 种 不 同 观点 ， 一 种 是 把 尼 看 成 有 结构 、 有 组 织 的 数据 ， 而 另 一 种 则 把 它 看 成 线性 空间 的 数 
据 。 下 列 示意 图 (图 5.3) 表 示 了 不 同文 件 的 这 种 层次 结构 。 





其 他 存储 介质 或 
传输 介质 





se 


5.3 Linux 文 件 系统 的 层次 结构 
图 中 有 三 种 不 同类 型 的 文件 。 


5.1.1 磁盘 文件 
磁盘 文件 也 许 应 该 称 为 “存储 文件 ” 这 就 是 狭义 的 、 本 来 意义 上 的 “文件 ”， 通 常 以 做 盘 为 存储 


模拟 磁盘 介质 。 所 谓 “ 文 件 >， 就 是 按 一 定 的 组 织 形式 存储 在 介质 上 的 信息 ， 所 以 一 个 “文件 ”其 实 包 
含 了 两 方面 的 信息 ， 一 是 存储 的 数据 本 身 ， 还 有 -部 分 就 是 有 关 该 文件 的 组 织 和 管理 的 信和 以 。 对 于 磁 
盘 文件 来 说 ， 这 两 种 信息 必定 全 都 存储 在 “文件 系统 ”中 ， 也 就 是 磁盘 上 。 其 中 与 组 织 和 管理 有 关 的 
信息 主要 存储 在 文件 的 “索引 和 节点 ”和 “目录 项 ”中 。 磁 益 上 的 索引 节点 与 前 述 〈 存 仕 于 内 存 中 ) 的 
inode 数据 结构 相似 ， 但 有 所 不 同 ， 可 以 看 成 是 inode 结构 的 简化 了 的 版 本 。 不 过 ， 磁 盘 上 的 索引 市 后 
不 像 inode 结构 那样 会 因 断 电 而 “挥发 ” 也 不 占用 内 存 空间 。 每 个 文件 者 有 一 个 并 且 只 有 一 个 索引 节 
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上 态 。 媚 使 义 件 中 暂时 没有 数据 ， 其 索引 节点 总 是 存在 的 。 这 类 文件 是 本 章 的 重点 ， 个 过 我 们 在 本 书 中 
将 只 关心 Ext2 MARS. 磁盘 [的 目 东 项 也 比 内 存 中 的 dentry 结构 简单 ， 存 在 于 所 谓 “ 上 月 录 节 点 ”中 。 
目录 节点 实际 上 是 一 种 特殊 形式 和 用 途 的 文件 。 


5.1.2 设备 文件 


设备 文件 同样 包含 有 用 于 组 织 和 管理 的 信息 ， 同 样 有 存储 介质 上 的 索引 节点 和 目录 项 ， 但 是 却 不 
一 定 有 存储 在 的 数据 。 根 据 设 备 类 型 和 性 质 的 不 同 ， 它 可 以 是 用 于 存储 / 读 出 的 〈 如 磁盘 )， 也 可 以 是 
用 才 接 收 /发 送 的 《如 网络 卡 )， 还 可 以 是 供 采集 /控制 的 《如 “ 些 机 电 设备 )， 甚 至 可 以 是 数 种 类 型 的 结 
合 。 实 际 上 ， 不 管 什 么 设备 ， 在 操作 的 过 程 中 总 要 伴随 着 定 程度 的 数据 采集 和 控制 ， 通 常 都 通过 设 
备 接口 上 的 一 个 “控制 /状态 寄存 器 ”进行 ， 具 体 可 参看 本 书 下 册 “ 设 备 驱动 ”一 章 。 


5.1.3 ”特殊 文件 


特殊 文件 在 内 存 中 也 有 inode 数据 结构 和 dentry 数据 结构 ， 但 是 不 一 定 在 存储 介质 上 有 索引 节点 
和 目录 项 。 与 前 其 种 义 件 主旨 的 不 同 是 : 特殊 文件 一 般 部 与 外 部 设备 无 关 ， 所 涉及 的 介质 通常 就 是 内 
存 以 及 CPU 本 身 。 当 从 一 特殊 文件 “ 读 ” 时 ， 所 该 出 的 数据 部 是 由 系统 内 部 按 一 定 的 规则 临时 生成 出 
米 的 ， 或 者 从 内 存 中 收集 、 加 工 出 来 的 ， 反 之 亦 然 。 从 这 个 意义 上 说 ， 文 件 “devnull” 就 是 一 个 特殊 
文件 ， 凡是 写 入 这 个 文件 的 数据 全 部 部 被 天 弃 了 , 根本 就 与 外 部 设备 无 关 。 所 以 这 个 文件 虽然 在 “/dev” 
目录 下 ， 实 质 上 却 是 一 个 特殊 文件 。 读 者 在 “进程 间 通 信 ”- - 章 中 将 会 看 到 用 来 实现 “管道 ”的 文件 ， 
特别 是 “命名 管道 ”的 FIFO XH, KA Unix 域 的 socket， 也 都 属于 特殊 文件 。 在 本 章 中 我 们 还 要 介 
绍 妨 “种 重要 的 特殊 文件 ， 那 就 是 在 “/proc” 上 日 录 下 的 一 系列 文件 。 

三 种 不 同类 型 的 文件 有 一 个 共同 点 ， 那 就 是 它们 部 有 一 些 关 于 组 织 和 管理 的 信息 。 因 此 ， 每 个 文 
件 都 有 “个 inode。 所 谓 inode， 也 就 是 “索引 节点 ”( 或 称 GTA”) 的 意思 。 要 “访问 ”~ 个 文件 时 ， 
5 - 定 要 通过 它 的 索引 才能 知道 这 个 文件 是 什么 类 型 的 文件 (例如 ， 是 合 设 备 文件 )、 是 怎样 组 织 的 、 文 件 
中 在 储 者 多 少数 据 、 这 些 数据 在 什么 地 方 以 及 其 下 层 的 驱动 程序 在 哪儿 等 必要 的 信息 。 数 据 结 构 inode 
的 定义 在 艾 件 include/linux/fs.h 中 给 出 ， 我 们 把 它 列 在 这 里 ， 但 是 现在 还 不 是 有 系统 地 解释 结构 中 各 个 
成 分 的 时 候 ， 读 者 以 后 还 得 反复 四 过 来 看 它 的 定义 。 最 后 ， 读 者 自己 就 能 作出 这 种 解释 了 。 此 处 我 们 
只 对 结 梅 中 的 某 些 成 分 作 “: 些 介绍 。 先 看 inode BE X (include/linux/fs.h): 


387 struct inode { 


388 struct list head i hash; 
389 struct list head i_list; 
390 struct list_head i_dentry; 
391 

392 struct list_head 1 dirty buffers; 
393 

394 unsigned long 1 ino; 
395 atomic t 1 count; 
396 kdev t i dev; 
397 umode t i mode; 
398 nlink t i nlink; 
399 uid t 1 uid; 
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400 gid t i gid; 

401 kdev_t i rdev; 

402 loff t i size; 

403 time t i atimo; 

404 time t i mtime; 

405 time t 1 ctime; 

406 unsigned long i blksize; 

407 unsigned long i blocks; 

408 unsigned long i version; 

409 struct semaphore i sem; 

410 struct semaphore 1 zombie; 

All struct inode operations *1_op; 

412 struct file operations *i fop;/* former ->i op-2default file ops */ 
413 struct super block *1 sb; 

414 wait queue head t i wait; 

415 struct file lock *j flock; 

416 struct address space *i mapping; 

417 struct address spaco 1 data? 

418 struct dquot *i dquot [MAXQUOTAS ] : 
419 struct pipe inode info *i pipe; 

420 struct block device *i bdev; 

421 

422 unsigned long i dnotify mask; /* Directory notify events */ 
423 struct dnotify struct *i dnotify; /* for directory notifications */ 
424 | 

425 unsigned long i state; 

426 

427 unsigned int i flags; 

428 unsigned char i sock; 

429 

430 atomic_t i writecount; 

431 unsigned int i attr flags; 

432 u32 i generation; 

433 union | 

434 struct minix inode info minix 1; 

435 struct ext2 inode info ext2_ i; 

460 tu; 

461}; 


Ait inode 都 有 一 个 “i WA” i_ino， 在 同 -文件 系统 中 每 个 i 节点 号 帮 古 惟一 的 ， 内 核 中 有 时 
候 会 根据 守节 点 号 的 杂凑 值 寻 找 其 inode 结构 。 同 时 ， 每 个 文件 都 有 个 “文件 主 ”， 最 初 是 创建 了 这 个 


所 以 又 有 个 组 号 gid。 因 此 , 在 inode 结构 小 就 相应 地 有 i_uid 和 i gid 岗 个 成 分 ， 以 指明 文件 主 的 身分 。 
值得 注意 的 是 ，inode 结构 中 有 两 个 设备 号 ， 划 i dev 和 i rdev。 首 先 ， 除 特殊 文件 外 ， 一 个 索引 
节点 总 得 存储 在 凑 个 设备 上 ， 这 就 是 idev。 其 次 ， 如 果 索 引 节点 所 代 克 的 并 不 是 常规 文件 ， 而 是 有 个 
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设备 ， 那 践 还 要 有 个 设备 号 ， 那 就 是 ij_rdev。 设 备 号 实际 上 由 两 部 分 构成 ， 即 “ 主 设备 号 ”与 “次 设 
备 写 ”二 设备 号 表示 设备 的 种 类 ， 例 如 磁盘 就 分 成 软 众 、IDE WA, Scs 硬盘 等 等 。 次 设备 号 则 表 
泵 系统 内 配备 的 网 一 种 设备 小 的 其 个 兵 体 设备 。 

每 当 :个 文件 受到 访问 时 , 系统 都 此 在 这 个 文件 的 inode 中 留 下 时 间 印 记 , inode 结构 中 的 i_atime、 
i mtime 和 i ctime 分 别 为 最 后 一 次 访问 该 文件 的 时 间 、 修 改 该 文件 的 时 间 以 及 最 初创 建 该 文件 的 时 间 。 

对 于 其 有 数据 部 分 的 文件 《磁盘 文件 或 “普通 文件 ”) 来 说 ，i_size 就 是 其 数据 部 分 当前 的 大 小 。 
们 于 数据 所 在 的 位 置 ， 则 根 撕 文件 系统 的 不 同 而 记 洒 在 inode 中 的 union 里 面 。 

束 像 人 可 以 有 别名 一 样 ， 文 件 也 可 以 有 多 个 文件 名 ， 也 就 是 说 可 以 将 一 个 已 经 创建 的 文件 “连接 ” 
Clink) 到 兄 一 个 文件 名 。 这 个 “别名 ”与 原来 的 文件 名 可 以 在 同 “个 县 录 中 ,也 可以 在 不 同 的 目 法 中 ， 
但 是 这 些 直 同 的 月 法 项 都 指 辣 同一 个 inode。 与 此 相应 ， 存 inode 结构 中 有 个 计数 器 i_link， 用 来 记 住 
这 个 文件 有 多 少 个 这 样 的 连接 。 同 时 ， 还 有 个 队列 头 i_dentry， 用 来 构成 - -个 dentry 结构 的 队列 ， 洛 着 
这 个 队列 惑 可 以 找 旬 与 这 个 文件 相 联 系 的 所 有 dentry 结构 。 

除了 相对 静态 的 信息 以 外 ，inode 结构 中 还 有 些 成 分 用 才 表 示 - - 些 动态 的 信息 。 例 如 ，i_count 就 是 
inode 结构 的 共 吝 计数 ， 这 个 数值 在 系统 运行 的 过 程 中 是 常常 在 变化 的 。 又 如 ，inode 结构 可 以 通过 它 
的 几 个 list_head 结构 动态 地 链 入 到 内 存 中 的 若 十 队列 中 ， 这 种 关系 显然 也 是 在 动态 地 变化 的 。 

另外 ，inode 结构 中 union FE rei 1f MERE AR e ES. mE. inode 结构 中 相对 静态 的 一 些 信 息 
是 需要 保存 在 “不 挥发 性 ”介质 如 磁盘 上 的 。 这 一 点 对 具有 数据 部 分 的 磁盘 文件 固 不 待 言 ， 就 是 对 十 
个 具有 数据 部 分 的 设备 文件 和 特殊 义 件 也 是 必需 的 (只 有 少数 特殊 文件 例外 , 如 无 名 管道 文件 )。 所 以 ， 
在 前 向 的 文件 系统 层次 图 (图 5.3) 中 ,实际 上 从 VES 和 伐 盘 介质 之 闻 还 应 该 加 上 :条 连 线 ,表示 VES 
aA TEIN A SL e Ht EAR TF AR inode 结构 (以 及 其 他 一 些 数 据 结 构 , 如 dentry) MRR uera. 
以 后 读者 还 会 看 到 ， 磁 松 的 格式 化 也 考虑 到 了 这 个 问题 。 以 Ext2 eR AB, BA EM iat OK) 
主 虐 分 成 山 部 分 ，… 部 分 用 于 索引 和 弛 点， 一 部 分 用 于 文件 的 数据 。 给 定 一 个 索引 节点 号 ， 就 可 以 通过 
磁 仇 的 设备 驱动 程序 将 其 所 在 的 记录 块 读 入 内 存 中 ，。 

WMA. BEXSEUEHU inode 结构 中 的 部 分 信息 保存 在 磁盘 上 的 “索引 节点 ”路 ， 这 些 节点 又 是 什么 样 
AWE? 这 此 看 具体 的 文件 系统 而 定 。 就 Linux 本 身 的 文件 系统 Ext2 而 言 , 那 就 是 ext2_inode 数据 结构 ， 
这 是 在 include/linux/ext2_fs.h PE MA, rA jo AB LEER FES inode 结构 的 异同 。 





214 /水 

215 * Structure of an inode on the disk 

216 */ 

217 struct ext2 inode { 

218 __ul6 i mode; /* File mode */ 

219 __ul6 i uid; /* Low 16 bits of Owner Lid */ 
220 — u32 i size: /* Size in bytes */ 

221 | u32 i atime; /* Access time *¥/ 

222 | u82 i ctime; /* Creation time */ 

223 | u82 i mtime; /* Modification time */ 

224 . u32 i dtime; /* Deletion Time */ 

225 ul6 i gid; /* Low 16 bits of Group Id */ 
226 ..ulG i links count; /* Links count */ 

221 ..u32 i blocks;  /* Blocks count */ 

228 | u32 i flags; /* File flags */ 
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229 
230 
231 
232 
233 
234 
235 
236 
231 
238 
239 
240 
241 
242 
243 
244 
245 
246 
247 
248 
249 
250 
251 
252 
253 
254 
255 
256 
257 
258 
299 
260 
261 
262 
263 
264 
265 
266 
267 
268 
269 


统 而 


union { 
struct { 
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= u32 l i reservedl; 


} linuxi; 
struct { 


__u32 h i translator; 


] hurdl; 
struct { 


| uà32 m i reservedl; 


} masixl; 


) osdl; 


union { 
struct { 
EN. 
__u8 
__ul6 
|. ul6 
4:15 
ERES 
} linux2; 
struct { 
|. u8 
.. u8 
|. ul6 
.. ul6 
__ul6 
__u32 
} hurd2; 
struct { 
u8 
__u8 
.. ul6 
u32 
) masix2; 


} osd2; 


Ja 


 u32 i generation; 

 u32 i file acl; /* File ACL */ 

_u32 i dir acl; 
u32 1 faddr; 


/* OS dependent 1 */ 
u32 i block[EXT2 N BLOCKS];/* Pointers to blocks */ 


/* File version (for NFS) */ 


/* Directory ACL */ 


/* Fragment address */ 


li frag; /* 
] i fsize; /* 
i padl; 

] i uid high; 
l i gid high; 
] i reserved2; 


hi frag; /* 
h i fsize; /* 
h i mode high; 
h i uid high; 
h i gid high; 
h i author; 


m i frag; /* 
m i fsize; /* 
m padl; 


Fragment number */ 
Fragment size */ 


/* these 2 fields */ 
/* were reserved2[0] */ 


Fragment number */ 


Fragment size */ 


Fragment number */ 
Fragment size */ 


m i reserved2[2]; 


/* OS dependent 2 */ 


FLARE LA aA INS SE Ld at HE ERE DE XC. XXE CAT I Re I ERR E 
分 ， 而 只 是 指出 : BR Linux 外 ，FSF 还 打算 在 它 的 其 他 两 个 操作 系统 中 也 采用 Ext2 文件 系统 ， 但 是 在 
具体 使 用 上 又 略 有 不 同 ， 所 以 在 这 个 结构 中 有 两 个 union, BI osdi 和 osd2， 都 要 视 实际 运行 的 操作 系 


作 不 同 的 解释 。 


虽然 在 inode 结构 《以 及 ext2_inode 结构 ) 中 包含 了 关于 文件 的 组 织 和 管理 的 信息 ,但 是 还 有 一 项 
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关键 性 的 信息 ， 即 文件 名 ， 却 并 不 在 其 内 。 显 然 ， 我 们 需要 一 种 机 制 ， 使 得 根据 一 个 文件 的 文件 名 就 
可 以 在 磁盘 上 找到 该 文件 的 索引 节点 ， 从 而 在 内 存 中 建立 起 代表 该 文件 的 inode 结构 。 这 种 机 制 就 是 文 
件 系 统 的 目录 树 。 这 棵 倒立 的 “ 树 ” 从 系统 的 “ 根 节点 ” 即 “/” 开 始 向 下 伸展 ， 除 最 底层 的 “时 ” 
节点 为 “文件 ”以 外 ， 其 他 的 中 间 节 点 都 是 “目录 ”。 其 实 ， 目 录 也 是 一 种 文件 ， 是 一 种 特殊 的 磁 枚 文 
件 。 这 种 文件 的 “文件 名 ”就 是 目录 名 ， 也 有 索引 节点 ， 并 且 有 数据 部 分 。 所 不 同 的 是 ， 其 数据 部 分 
的 内 容 只 包括 “目录 项 *”. 对 Ext2 文件 系统 来 说 ， 这 种 “目录 项 ”就 是 ext2_dir_entry， 后 来 改 成 了 
ext2 dir entry 2 数据 结构 〈 但 你 持 兼 容 )， 它 也 是 在 ext2_fs 中 定义 的 : | 





414 #define EXT2 NAME LEN 255 


483 /* 

484 * The new version of the directory entry. Since EXT2 structures are 
485 * stored in intel byte order, and the name len field could never be 
486 * bigger than 255 chars, it's safe to reclaim the extra byte for the 
487 * file type field. 

488 */ 

489 struct ext2 dir entry 2 { 

490 | u32 inode; /* Inode number */ 

49] __ul6 rec len; /* Directory entry length */ 

492 = u8 name len; /* Name length */ 

493 __u8 file_type; 

494 char name [EXT2 NAME LEN]; /* File name */ 

495} ; 


文件 名 《不 包括 路 径 部 分 ) 的 最 大 长 度 为 255 个 字符 。 老 版 本 的 ext2_dir_entry 结构 中 name len 
为 无 符 与 短 整 数 ， 而 在 新 版 本 的 ext2_dir_entry_2 中 则 改 为 8 位 的 无 符号 字符 ， 腾 出 一 半 用 作文 件 类 型 
fild_type。 目 前 ， 已 经 定义 的 文件 类 型 为 : 


497 /* 

498 * Ext2 directory file types. Only the low 3 bits are used. The 
499 * other bits are reserved for now. 
500 */ 

501 Hdefine EXT2 FT. UNKNOWN 0 
502 Sdefine EXT2 FT REG FILE 1 
503 &define EXT2 FT DIR 2 
504 &define EXT2 FT CHRDEV 3 
505 Hdefine EXT2 FT BLKDEV 4 
506 define EXT2 FT FIFO 5 
507 define EXT2 FT SOCK 6 
508 "define EXT2 FT SYMLINK 7 
509 

510 #define EXT2 FT MAX 8 


RER EXT2 FT CHRDEV 和 EXT2_ FT BLKDEV 分 别 表示 字符 设备 文件 和 块 设 备 文件 。 我 们 在 
前 面 提 到 过 的 “Aproc” 下 的 特殊 文件 并 不 单独 成 为 -- 类 ， 而 是 作为 常规 文件 ， 即 EXT2_FT_REG_FILE 
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出 现在 目 某 项 中 。 至 于 最 后 怎样 与 真 止 的 常规 文件 相 区 分 ， 则 读者 在 读 完 本 章 以 后 自 会 明 口 。 

注意 ext2_dir_entry_2 结构 中 有 个 学 段 rec_len,， 说 明 这 个 数据 结构 的 长 度 并 个 是 固定 的 。 由 于 节操 
名 的 长 虐 相 差 可 以 很 大 ， 固 定 按 最 大 长 度 255 分 配 宣 间 会 造成 浪费 ， 所 以 将 这 个 数据 结构 的 长度 设计 
成 可 改 的 。 当 然 ， 在 这 样 的 数据 结构 中 其 可 变 部 分 (这 里 是 name) 必须 成 在 最 后 。 

磁盘 上 的 ext2_inode 数据 结构 在 内 存 中 的 对 应 物 为 inode 结构 ,但 三 者 有 很 大 不 同 ; TA, Box 
ext2 dir entry 2 在 内 存 中 的 对 应 物 是 dentry 结构 ， 但 是 这 二 者 也 有 很 大 个 同 。 数 据 结 构 dentry 是 在 
include/linux/dcache.h 中 定义 的 : 


oT &define DNAME INLINE LEN 16 


58 
59 struct dentry { 
60 int d count; 
61 unsigned int d flags; . 
62 struct inode *d inode; 
/* Where the name belongs to - NULL is negative */ 
63 struct dentry * d parent;  /* parent directory */ 
64 struct list_head d_vfsmnt; 
65 struct list head d hash; /* lookup hash list */ 
66 struct list head d lru; /* d count = 0 LRU list */ 
67 struct list head d child;  /* child of parent list */ 
68 struct list head d subdirs; /* our children */ 
69 struct list head d alias; /* inode alias list */ 
10 struct qstr d name; 
71 unsigned long d time; /* used by d revalidate */ 
T2 struct dentry operations *d op; l 
73 struct super_block * d_sb; /* The root of the dentry tree */ 
74 unsigned long d reftime; /* last time referenced */ 
75 void * d fsdata; /* fs-specific data */ 
76 unsigned char d iname[DNAME INLINE LEN]; /* small names */ 
TT 33 


很 明显 ，dentry APARTEN RAWAM. MAD Unos PE do S SEES 
ext2, dir entry. 2. 有 很 大 的 不 同 ， 相 比 之 下 几乎 趾 抽 日 全 非 。 以 后 我 们 将 结合 代码 解释 其 主要 成 分 的 用 
途 。 其 实 ，dentry 与 ext2_dir_entry_2 之 则 以 及 inode 与 ext2, inode 之 间 的 这 种 显著 相同 并 不 奇怪 ， 央 
为 dentry 和 inode 是 属于 VFS 层 的 数据 结构 ， 需 要 适 几 于 各 种 不 同 的 文件 系统 ， 而 ext2_dir_entry 2 和 
ext2_inode 则 起 专门 针对 Ext2 文件 系统 而 设计 的 ， 质 以 新 音 除 包 人 台子 许多 动态 信息 以 外 ， 还 是 对 后 者 
的 PRA X. FIFRA Aba IRR 

说 到 这 里 ， 读 者 可 能 会 产生 一 个 疑问 ， BWIA) Xu ^H. BEN S CITAS 


个 目 冰 项 中 ， 这 “来 不 是 成 了 “ 先 有 鸡 还 万 先 右 策 ” 的 问题 ， 或 音 说 递归 了 吗 ? 这 个 圈子 的 出 口 在 哪 

JLE? 我 们 不 妨 换 一 个 方式 来 问 这 个 问题 ， 乾 就 是 : 是 牟 有 这 样 一 个 上 朋 有 录 ， 它 本 身 的 “用 录 项 ”不在 

其 他 日 录 中 ， 而 可 以 在 一 个 固定 的 位 置 上 或 者 通过 一 个 固定 的 算法 找 人 到， 并 且 从 这 个 日 录 出 发 可 以 找 

到 系统 中 的 任何 一 个 文件 ? 答案 是 肯定 的 ， 这 个 明了 录 融 是 系统 的 根 目 录 “/”， 或 痢 说 “ 根 设 备 ” 上 的 

根 目 录 。 每 一 个 “文件 系统 ”， 妈 每 一 个 格式 化 成 某 种 文件 系统 的 存储 设备 上 首 有 一 个 根 日 录 ， 人 疝 时 又 
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都 有 一 个 “超级 块 ”(super block)， 根 月 录 的 位 置 以 及 文件 系统 的 其 他 一 些 参 数 就 记录 在 超级 块 中 。 起 
级 块 在 设备 上 的 逻辑 位 置 部 是 闽 定 的 , 例如 , 在 磁盘 二 总 是 在 第 二 个 有 还 辑 块 ( 第 一 个 逻辑 块 为 引导 块 )， 
所 以 不 需要 再 从 其 他 什么 地 方 去 “查找 ” 同时 ,对 于 一 个 特定 的 文件 系统 ,超级 块 的 格式 也 是 固定 的 ， 
系统 企 初 始 化 时 要 将 一 个 存储 设备 (通常 就 是 从 中 引导 出 操作 系统 的 那个 设备 ) 作为 整个 系统 的 “ 根 
设备 ”， 尼 的 根 目 录 就 成 为 整个 文件 系统 的 “总 根 ”， 就 是 “/”。 更 确切 地 说 ， 就 是 把 根 设备 的 根 目 订 
“安装 ”在 文件 系统 的 总 根 “/” 节 点 上 。 有 了 根 设备 以 后 ， 还 可 以 进而 把 其 他 存储 设备 也 安装 到 文件 
系统 中 空闲 的 目录 节点 上 上。 所谓“ 安装 ”， 就 是 从 一 个 存储 设备 二 读 入 超级 块 ， 在 内 存 中 建立 起 … 个 
super block 结构 。 再 进而 将 此 设备 上 的 根 日 录 与 文件 系统 中 已 经 存在 的 个 空白 日 录 挂 上 钓 。 系 统 初 
始 化 时 整个 文件 系统 只 有 一 个 空白 目录 “/”， 所 以 根 设备 的 根 目 录 就 安装 在 这 个 节点 上 。 这 样 ， 从 根 
目录 “/” 开 始 ， 根 据 给 定 的 “人 路径 名 ”就 可 以 找到 文件 系统 中 的 任何 一 个 文件 ， 而 不 论 这 个 文件 是 
在 嘟 一 个 存储 设备 上 ， 只 要 文件 所 在 的 存储 设备 已 经 安装 就 行 了 。 

但 是 ， 每 次 都 要 提供 一 个 全 路 径 名 ， 并 日 每 次 都 要 从 根 日 录 “/” 开 始 查 找 ， 既 不 方便 也 是 一 种 浪 
费 。 所 以 系统 也 提供 了 从 “当前 目录 ”开始 查找 的 手段 。 每 一 个 进程 在 每 一 时 刻 都 有 “个 “当前 工作 
日 录 pwd”， 用 广 可 以 改变 这 个 日 录 , 但 是 永远 都 有 这 么 个 日 录 存 在 。 这 样 ， 就 可 以 上 只 提供 个 从 pwd 
开始 的 “相对 路 径 名 ”来 查找 一 个 文件 。 这 就 是 前 和 面 看 到 过 的 fs_struct 数据 结构 中 为 什么 要 有 个 指针 
pwd 的 原因 。 这 个 指针 总 是 指向 本 进程 的 “当前 工作 目录 ”的 dentry 结构 ， 册 进程 的 task. struct 结构 
中 的 指针 fs 则 总 是 指向 个 有 效 的 fs struct 结构 。 每 当 -- 个 进程 通过 chdir ) 系 统 调 用 进入 一 个 目录 ， 
或 者 在 login 进入 用 户 的 原始 目录 (“Home Directory”) 时， 内 核 就 使 该 进程 的 pwd 指针 指向 这 个 目录 
在 内 存 中 的 dentry 结构 。 相 对 路 径 名 还 可 以 用 “../” 开 头 ， 表示 先 向 上 找到 当前 目录 的 父 月 录 ， 再 
从 那里 开始 查找 。 相 应 地 ， 在 dentry 结构 中 也 有 个 指针 d_parent， 指 向 其 父 日 录 的 dentry 结构 。 

如 前 所 述 ，fs_struct 结构 中 还 有 - -个 指针 root， 指 向 本 进程 的 根 目 水“/” 的 dentry 结构 。 前 面 讲 
过 ,“/” 表 示 整 个 文件 系统 的 总 根 ， 可 这 只 是 斌 一 般 而 言 ， 或 者 是 对 早期 的 Unix 系统 而 音 。 事 实 上 ， 
特权 用 户 可 以 通过 一 个 系统 调用 chroot( ) 将 男 一 个 日 录 设 置 成 本 进程 的 根 目 录 。 从 此 以 后 , 这 个 进程 以 
及 由 这 个 进程 所 fork( ) 的 子 进程 就 把 这 个 日 录 当 成 了 文件 系统 的 根 ， 遇 到 文件 的 全 路 径 名 时 就 从 这 个 
月 录 而 不 丰 从 其 正 的 文件 系统 总 根 开始 查找 。 例 如 ， 要 是 这 个 进程 执行 一 个 系统 调用 chdir), BRE 
转 旬 这 个 “现在 ”的 根 日 录 认 不 是 真正 的 根 且 了 天 。 这 种 特殊 的 设计 也 是 从 实 中 需求 引起 的 ， 最 初 是 为 
I mH FTP， 特 别 是 匿名 FTP 的 一 个 安全 性 问题 。FTP 的 服务 进程 〔〈 所 谓 “ 守 护 神 ”daemon) 是 特权 
用 户 进程 。 当 一 个 远程 的 用 户 与 FTP 服务 进程 建立 起 连接 以 后 ， 就 可 以 在 迹地 发 出 诸如 “cd /". "get 
fetc/passwd” 之 类 的 命令 。 显 然 ， 这 给 系统 的 安全 性 造成 了 一 个 潜在 的 缺 出 ， 现 在 有 了 进程 自己 的 “ 根 
日 录 ” 以 及 系统 调用 chroot( ), sinl PALE FTP 服务 进程 把 男 … 日 录 当 成 它 的 根 H 录 ， 从 而 当 远 程 用 户 
要 求 “get /etc/passwd” 时 就 会 得 到 “文件 找 不 到 ”之 类 的 出 错 信 息 ， 从 和 保证 了 passwd 口令 文件 的 
安全 性 。 

向 且 ，fs_struct 结构 中 还 有 一 个 指针 altroot, 指向 本 进程 的 “替换 根 日 录 ”。 当 进程 执行 .个 系统 
调用 chdir(* 站 ) 时 ， 如 果 它 有 替换 根 日 录 ， 即 指针 altroot 不 为 0， 就 会 转 入 其 替换 根 上 月 录 ， 售 则 才 转 入 
其 视 在 根 上 身 录 。 这 样 就 可 以 视 上 基体 的 情况 而 在 两 个 “ 根 肯 录 ” 中 切换 ， 让 用 户 在 不 同 的 情况 下 “看 到 ” 
不 同 的 根 目录 。 

对 于 普通 文件 ， 文 件 系 统 层 最 终 要 通过 磁盘 或 其 他 存储 设备 的 驱动 程序 从 存储 介质 上 读 或 写 。 就 
Ext2 文件 系统 而 言 ， 从 磁 禹 文件 的 角度 来 看 ， 对 存储 介质 的 访问 可 以 涉及 到 出 种 不 同 的 日 标 ， 那 就 是 : 

(1) 文件 中 的 数据 ， 包 括 日 录 的 内 容 ， 即 目 东 项 ext2_dir_entry_2 数据 结构 。 

(2) 文件 的 组 织 与 管理 信息 ， 即 索引 节点 ext2_inode 数据 结构 。 
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(3) 磁盘 的 超级 块 。 如 果 物 理 的 磁盘 被 划分 成 若干 分 区 ， 那 就 包括 每 个 “ 罗 辑 磁盘 ”的 超级 块 。 

(4) 引导 块 。 

每 个 按 Ext2 格式 经 过 格式 化 的 磁 手 (或 逻辑 盘 ) 存 储 介质 都 相应 地 被 划分 成 至 少 4 个 部 分 (图 5.4)。 
其 中 引导 块 水 远 是 介质 上 的 第 一 个 记录 块 ， 超 级 块 永远 是 介质 上 的 第 二 个 记录 块 ， 其 他 两 部 分 的 大 小 
则 取决 于 磁盘 大 小 等 参数 ， 这 些 参 数 都 存储 在 超级 块 中 。 





数据 部 分 ， 大 小 取决 于 格式 化 参数 和 磁 笨 大 小 
索引 节点 部 分 ， 大 小 取决 十 格式 化 参数 
超级 块 





5.4 He OZR) 划分 示意 图 


有 的 文件 系统 并 浇 有 索引 节点 这 么 一 种 数据 结构 ， 甚 至 没有 这 人 么 一 种 概念 。 但 是 既然 构成 一 个 文 
件 系统 就 必然 存在 着 某 种 索引 机 制 ， 从 这 种 机 制 中 不 可 以 折 象 出 《或 变换 成 ) super_block 结构 和 inode 
结构 中 的 公共 信息 。 同 时 ，super_block 结构 也 和 inode 结构 一 样 包含 着 一 个 union， 对 这 一 部 分 信息 要 
根据 具体 的 文件 系统 向 加 以 不 问 的 解释 和 使 用 。 

从 磁 檬 驱动 程序 的 角 度 来 看 ， 则 整个 介质 只 是 一 个 由 若 十 记录 块 组 成 的 一 维 阵列 《记录 块 数组 ) 
而 已 ， 所 以 这 种 设备 称 为 “ 块 设备 ”。 当 文件 系统 层 要 从 做 檀 上 读 出 一 个 索引 节点 时 ， 要 根据 索引 点 
号 和 超级 块 中 提供 的 信息 ， 计 算出 这 个 索引 节点 在 磁盘 上 的 哪 一 个 记录 块 以 及 在 此 记录 块 中 的 相对 位 
移 。 然 后 ， 通 过 磁盘 驱动 程序 读 入 这 个 记录 块 后 再 根据 索引 节点 在 记录 块 中 的 相对 位 移 找 到 这 个 有 点 。 
如 前 所 述 ， 磁 盘 上 的 “ 根 目 录 ” 是 特殊 的 ， 其 索引 节点 号 保存 在 该 磁盘 的 超级 块 中 。 从 磁盘 读 一 个 特 
定 文件 的 内 容 〈 数 据 ) 则 要 稍为 麻烦 一 点 。 先 要 读 入 该 文件 的 索引 节点 ， 然 后 根据 索引 节点 中 提供 的 
信息 将 数据 在 文件 中 的 位 移 换算 成 磁盘 上 的 记录 块 号 ， 再 通过 磁盘 驱动 程序 从 磁盘 上 读 入 。 

相 比 之 下 ， 作 为 “设备 文件 ”的 磁盘 则 不 存在 〈 或 看 不 见 》 ROPER OD, RR a a eA 
一 个 巨大 的 线性 存储 空间 〈 字 节 数 组 )。 当 从 作为 设备 文件 的 磁盘 读 出 时 ， 只 要 将 数据 在 此 文件 中 的 位 
移 换算 成 磁盘 上 的 记录 块 号 ， 就 可 以 通过 磁盘 驱动 程序 读 入 了 。 不 过 ， 在 此 之 前 也 要 先 找到 代表 着 这 
个 设备 文件 的 目录 项 和 索引 节点 ， 才 能 把 字符 串 形式 的 设备 文件 名 转换 成 驱动 程序 所 需要 的 设备 号 。 

在 前 面 我 们 曾 把 具体 的 文件 系统 比喻 作 “ 接 口 卡 ”， 而 把 虚拟 文件 系统 VES 比喻 成 一 条 质 权 。 因 
Jt, file 结构 中 的 指针 f£ op 就 可 以 看 作 插 横 中 的 个 触 点 ， 并 日 在 dentry、inode 等 结构 中 都 有 着 类 似 
的 触 点 。 所 以 ， 如 果 把 整个 具体 文件 系统 比喻 成 “接口 卡 ” 的 话 ， 事 么 这 种 接口 下 的 “ 插 权 ”分 成 好 
MLE. m fle 结构 只 是 其 中 最 主要 的 一 段 。 有 关 的 数据 结构 有 : 

(1) 文件 操作 跳 转 表 , 即 file operations 数据 结构 :file 结构 中 的 指针 f_op TRIS] AL UE) file operations 
结构 , 这 是 read( ). wirte( ) 等 文件 操作 的 跳 转 表 , 一 种 文件 系统 并 不 只 限于 一 个 file. operations 
结构 ， 如 Ext2 就 有 两 个 这 样 的 数据 结构 ， 分 别 用 于 普通 文件 和 目录 文件 。 

(2) 目录 项 操作 跳 转 表 ， 即 dentry operations 数据 结构 :dentry 结构 中 的 指针 d op 指 问 具体 的 
dentry_operations 数据 结构 ， 这 是 内 核 路 hash( )、compare( ) 等 内 部 操作 的 跳 转 表 。 如 果 d op 
为 0 则 表示 按 Linux BRAT CHI Ext2) 方式 办 。 注 意 ， 这 里 说 的 是 日 录 项 ， 而 不 是 目录 , 日 
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录 本 身 是 一 种 特 帕 用 途 和 具有 特殊 结构 的 多 件 。 

(3) 索引 节点 操作 跳 转 表 ， 即 inode_operations 数据 结构 ，inode 结构 中 的 指针 i op 指向 具体 的 
inode operations 数据 结构 ， 这 是 mkdir( )、mknod( ) 等 文件 操作 以 及 lockup( ).. permission( ) 
等 内 部 切 数 的 跳 转 表 。 同 样 ， 一 种 文件 系统 也 并 不 只 限于 一 -个 fle_operations 结构 。 

(4) ERIR EDHE, BE super operations 数据 结构 ，super_block 结构 中 的 指针 s op 指向 具体 
的 super operations 数据 结构 ， 这 是 read inode( ). write inode( ). delete inode( ) 等 内 部 操作 
的 跳 转 表 。 

(5) 超级 块 本 身 也 因 文 件 系统 而 异 。 





HIER E, file 结构 、dentry 结构 、inode 结构 、super_block 结构 以 及 关于 超级 块 位 置 的 约定 都 属 
T VFS E. 

此 外 ，inode 结构 中 还 有 “个 指针 i_fop， 也 指向 具体 的 file_operations 数据 结构 ， 实 际 上 file 结构 
中 的 指针 f op 只 是 inode 结构 中 这 个 指针 的 一 个 副本 ， 在 打开 文件 的 时 候 从 目标 文件 的 inode 结构 中 
复制 到 file 结构 中 。 

最 后 还 要 指出 ， 虽 然 每 个 文件 都 有 目录 项 和 索引 节点 在 磁 扣 上 ， 但 是 只 有 在 需要 时 省 在 内 存 中 为 
之 建立 起 相应 的 dentry 和 inode 数据 结构 。 


5.2 ”从 路 径 名 到 目标 节点 


本 节 先 介绍 几 个 也 数 的 代码 ， 主 要 是 两 个 函数 ， 即 path_init( ) path_walk( ) 以 及 它们 下 面 的 一 些 
低层 函数 。 日 的 在 于 帮助 读者 加 深 对 文件 系统 内 部 结构 的 理解 ， 同 时 也 为 以 后 的 代码 阅读 做 些 准 备 ， 
因为 以 这 两 个 函数 为 入 口 的 操作 比较 大 ， 并 且 很 重要 ， 人 在 本 章 后 面 几 节 中 常常 此 用 到 。 这 两 个 函数 通 
常 都 是 连 在 一 起 调用 的 ， 二 者 合 在 一 起 就 可 以 根据 给 定 的 文件 路 径 名 在 内 存 中 找到 或 建立 代表 着 目标 
文件 或 目录 的 dentry 结构 和 inode 结构 。 在 老 一 些 的 版 本 中 ， 这 一 部 分 功能 一 直 是 通过 一 个 叫 namei( ) 
ERAU -A Iname )》 的 函数 完成 的 ， 现 在 则 有 了 新 的 实现 。 与 namei( ) 和 Inamei( ) 相 对 应 ， 现 
在 有 一 个 函数 __user_walk( ) 将 path_init( ) 和 path_walk( )“ 和 包装” 在 -- 起 。 不 过 ， 内 核 代 码 中 直接 调用 
这 两 个 函数 的 地 方 也 有 不 少 。 本 节 涉 及 的 代码 基本 上 都 在 文件 fs/namei.c 中 。 

先 看 “外 包装 ” B] ^ user walk( ): 


778 /* 

779 * namei( ) 

780 * 

781 * is used by most simple commands to get the inode of a specified name. 
782 * Open, link etc use their own routines, but this is enough for things 
183 * like 'chmod' etc. 

184 * 

785 * namei exists in two versions: namei/lnamei. The only difference is 
786 * that namei follows links, while lnamei does not. 

787 * SMP-safe 

788 */ 

789 int | user walk(const char *name, unsigned flags, struct nameidata *nd) 
790 { 
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791 char *tmp; 

192 int err; 

193 

794 tmp = getname (name) ; 

795 err = PTR ERR(tmp) ; 

796 if (TS ERR(tmp)) | 

797 err = 0; 

798 if (path init (tmp, flags, nd)) 
799 err = path walk(tmp, nd); 
800 putname (tmp) ; 

801 } 

802 return err; 

803} 


其 中 调用 参数 name 指向 在 用 广 空间 中 的 路 径 名 ; flags 的 内 容 则 是 一些 标志 位 ， 定 义 十 文件 


include/linux/fs.h: 


1128 /* 

1129 * The bitmask for a lookup event: 

1130 * - follow links at the end 

1131 * -— require a directory 

1132 * - ending slashes ok even for nonexistent files 
1133 * - internal “there are more path compnents” flag 
1134 */ 

1135 #define LOOKUP FOLLOW (1) 


1136  #define LOOKUP DIRECTORY (2) 
1137 . &define LOOKUP CONTINUE (4) 
1138  #define LOOKUP POSITIVE (8) 
1139 . tdefine LOOKUP PARENT (16) 
1140 — &define LOOKUP NOALT (32) 


这 些 标志 位 都 是 对 怎样 寻找 目标 的 指示 。 例 如 ，LOOKUP_DIRECTORY 表示 要 寻找 的 日 标 必 须 是 
个 目录 ; 而 LOOKUP. FOLLOW 表示 如 果 找 到 的 目标 只 是 “符号 连接 ”到 其 他 文件 或 日 录 的 个 目录 
项 ， 则 要 顺 着 连接 链 一 直 找 到 终点 。 所 谓 “连接” 是 指 一 个 “节点 ”( 目 录 项 或 文件 ) Beall at 
车 点 ， 成 为 男 一 个 季 点 的 代表 。 注 意 ,“ 符 号 连接 ”与 普通 连接 不 同 ， 普 通 的 连接 只 能 建 了 并 在 同一 个 存 
储 设备 上 上， 而 “符号 连接 ” 吕 以 是 跨 设 备 的 内核 提供 了 两 个 不 同 的 系统 调用 link( ) 和 symlink( )， 分 
别 用 于 普通 连接 和 “符号 连接 ”的 建立 。 由 于 “符号 连接 ”可 以 是 跨 设 备 的 ， 所 以 其 终点 有 可 能 “ 巷 
空 ” 而 普通 连接 的 终点 则 必定 是 洛 实 的 。 当 路 径 中 包含 着 “符号 连接 ”时 ， 对 于 万 否 继 续 顺 者 连接 链 
往 下 搜索 ， 则 舅 有 一 些 附 加 规定 ， 对 此 ， 代 但 的 作者 在 注释 中 加 了 说 明 〈fs/namei.c )， 


87 /* [Feb-Apr 2000 AV] Complete rewrite. Rules for symlinks: 

88 * inside the path - always follow. 

89 * in the last component in creation/removal/renaming - never follow. 
90 * if LOOKUP FOLLOW passed - follow. 

91 * if the pathname has trailing slashes - follow. 

92 * otherwise ~ don t follow. 
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93 * (applied in that order). 
94 x 
100 */ 


注释 中 谈 到 ， 如 果 在 一 个 路 径 名 内 部 的 某 个 中 间 节 点 是 符号 连接 ， 惠 就 总 是 些 跟 随 (follow); 了 而 在 
创建 /删除 /改名 操作 中 如 果 路 径 名 的 最 后 一 个 节点 是 符号 连接 则 不 要 跟随 (读者 不 妨 想 想 为 什么 ?)。 

至 于 其 他 一 些 标志 位 的 用 途 ， 在 阅读 代码 的 过 程 中 自 会 碰 到 。 此 处 要 提醒 读者 注意 : 并 非 所 有 标 
志 位 对 所 有 文件 系统 都 有 意义 。 

最 后 一 个 参数 nd 是 个 结构 指针 ， 数 据 结构 nameidata 的 定义 也 在 fs.h 中 : 


613 struct nameidata { 


614 struct dentry *dentry; 
615 struct vfsmount *mnt; 
616 struct qstr last; 

617 unsigned int flags; 
618 int last type; 

619 }; 


这 种 数据 结构 是 临时 性 的 ， 只 用 来 返回 搜索 的 结果 。 成 功 返 回 时 ， 其 中 的 指针 dentry 指 问 所 找到 
的 dentry 结构 ， 而 在 该 dentry 结构 中 则 有 指针 指向 相应 的 inode 结构 。 指 外 mnt WSI 4 vfsmount 
数据 结构 ， 它 记录 着 所 属 文件 系统 的 安装 信息 ， 例 如 文件 系统 的 安装 点 、 文 件 系 统 的 根 节点 等 等 。 

[R$] — user walk( )， 先 通过 getname( ) 在 系统 空间 中 分 配 一 个 页 面 ， 并 从 用 户 空 间 把 文件 名 复制 
到 这 个 页 面 中 。 由 二 分配 的 是 一 个 页 面 ， 所 以 整个 路 径 名 可 以 长 达 4K 字 节 。 同 时 ， 因 为 这 块 空间 是 动 
态 分 配 的 ,所 以 在 使 用 完 以 后 要 通过 putname( ) 将 其 释放 .代码 中 用 到 的 PTR_ERR AI IS. ERR 都 是 inline 
ARG TOE fs.h 中 : 


1105 /* 

1106 * Kernel pointers have redundant information, so we can use a 
1107 * scheme where we can return either an error code or a dentry 
1108 * pointer with the same return value. 

1109 * 

1110 * This should be a per-architecture thing, to allow different 
1111 * error and pointer decisions. 

1112 */ 

1113 static inline void *ERR_PTR (long error) 

1114 { 

1115 return (void *) error; 

1116 ] 

1117 

1118 static inline long PTR ERR(const void *ptr) 

1119 { 

1120 return (long) ptr: 

1121 3 

1122 
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1123 static inline long IS ERR (const void *ptr) 


1124 { 
1125 return (unsigned long)ptr > (unsigned long)-1000L; 
1126 } 


这 样 ， 剩 下 的 就 是 紧 挨 在 一 起 的 path, init( ) 和 path. walk( )PSA eK T o E fs/namei.c 文件 中 看 
path, init( ) 的 代码 ; 


690 /* SMP-safe */ 


691 int path init (const char *name, unsigned int flags, struct nameidata *nd) 
692 { 

693 nd-^last type = LAST ROOT; /* if there are only slashes... */ 
694 nd->flags = flags; 

695 if (*name==’ / ) 

696 return walk init root (name, nd) ; 

697 read lock(&current— fs-^lock); 

698 nd->mnt = mntget (current—>fs—>pwdmnt) ; 

699 nd->dentry = dget (current—>fs—>pwd) ; 

700 read unlock (&current—>fs—>lock) : 

701 return 1; 

702 | 


首先 将 nameidata 结构 中 的 last type 字段 设置 成 LAST_ROOT。 这 个 字段 可 能 有 的 值 定义 十 fsh 


中 : 

1141 /* 

1142 * Type of the last component on LOOKUP PARENT 
1143 */ 


1144 enum [LAST NORM, LAST ROOT, LAST DOT, LAST DOTDOT, LAST BIND]; 


在 搜索 的 过 程 中 ， 这 个 字段 的 值 会 随 路 径 名 的 当前 搜索 结果 而 变 。 例 如 ， 如 果 成 功 地 找到 了 目标 
文件 , 那么 这 个 字段 的 值 就 变 成 了 LAST_NORM; 而 如 果 最 后 停留 在 … 个 “. E. 则 变 成 LAST_DOT。 

下 面 就 取决 于 路 径 名 是 否 以 “/” 开 头 了 。 

我 们 先 看 相对 路 径 名 ， 即 不 以 “/” 开 头 时 的 情况 。 以 前 讲 过 ， 进 程 的 task struct. 结构 中 有 个 指针 
fs 指向 一 个 fs struct 结构 。 在 fs struct 结构 中 有 个 指针 pwd 指向 进程 的 “当前 工作 目录 ”的 dentry 结 
构 。 相 对 路 径 是 从 当前 工作 目录 开始 的 , 所 以 将 nameidata 结构 中 的 指针 dentry 也 设置 成 指 癌 这 个 当前 
工作 目录 的 dentry 结构 ， 表 泵 在 虚拟 的 绝对 路 径 中 这 个 节点 以 及 所 有 在 此 之 前 的 节点 都 已 经 解决 了 。 
同时 ， 这 个 基体 的 dentry 结构 现在 多 了 一个“ 用户 ” 所 以 要 调用 dget( ) 递 增 其 共享 计数 。 除 此 以 外 ， 
fs_sturct 结构 中 还 有 个 指针 pwdmnt 指向 一 个 vfsmount 结构 。 每 当 将 一 个 存储 设备 (或 称 “ 文 件 系 统 ”) 
安装 到 现 有 文件 系统 中 的 此 个 节点 (空白 目录 ) 时 ， 内 核 就 要 为 之 建立 起 一 个 vfsmount 结构 ， 这 个 结 
构 中 既 包 含 着 有 关 该 设备 (或 者 说 “ 子 系 统 ”) 的 信息 ， 也 包含 了 有 有关 安 装点 的 信息 。 系 统 中 的 每 个 文 
件 系 统 ， 包括 根 设备 上 的 文件 系统 ， 都 要 经 过 安装 ， 所 以 fs_sturct 结构 中 的 指针 pwdmnt 总 是 指向 一 个 
vfsmount 结构 。 详 情 可 参阅 后 面 “ 文 件 系 统 的 安装 与 拆卸 ”一 节 。 相 应 地 ， 在 nameidata 结构 中 也 有 个 
指针 mnt， 要 把 它 设置 成 指向 同一 个 vfsmount 结构 。 这 样 ， 对 路 径 搜 索 的 准备 上 作 ， 即 对 nameidata 
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结构 的 初始 化 就 完成 了 。 
可 是 ， 如 果 路 径 名 是 以 “/” 开 头 的 绝对 路 径 ， 那 就 要 通过 walk init root( ) A48 15 75 2-48 Tt dX. 


(fs/namei.c): 
[path init( ) > walk, init root( )] 


671 /* SMP-safe */ 


672 static inline int 

673 walk init root (const char *name, struct nameidata *nd) 
674 { 

675 read lock (&current—>fs->lock) ; 

676 if (current—fs~->altroot && !(nd->flags & LOOKUP_NOALT)) { 
677 nd->mnt = mntget (current—>fs—>altrootmnt) : 

678 nd->dentry = dget (current >fs »altroot); 

679 read unlock (&current->fs->lock) ; 

680 if ( emul lookup dentry (name, nd) ) 

681 return 0; 

682 read lock (&current->fs->lock) ; 

683 } 

684 nd->mnt = mntget (current->fs—>rootmnt) ; 

685 nd-»dentry = dget (current->fs->root) : 

686 read_unlock (€current->fs— lock) ; 

687 return |; 

688  ] 


如 果 当 前 进程 并 未 通过 chroot( ) 系 统 调 用 设置 自己 的 “替换 ” 根 上 月 录 ， 则 代码 中 if 语句 里 的 
current->fs->altroot Jj 0, 所 以 把 nameidata 中 的 两 个 指针 分 别 设置 成 指向 当前 进程 的 根 目 录 的 dentry £i 
构 及 其 所 在 设备 的 vfsmount 结构 。 反之, 如 果 已 经 设置 了 “替换 ” 根 目 录 , 那 就 要 看 当初 调用 path_init( ) 
时 参数 flags 中 的 标志 位 LOOKUP. NOALT 是 否 为 1 了 。 通 常 这 个 标志 位 为 0, 所 以 如 果 已 经 设置 了 “ 替 
换 ” 根 目录 就 会 通过 __emul_lookup_dentry( ) 将 nameidata 结构 中 的 指针 设置 成 指向 “替换 ” 根 上 日 录 。 

这 “替换 ” 根 日 录 到 底 是 怎么 回 事 呢 ? WOR, GALE Unix 变种 〈 如 solaris 等 ) 中 ， 可 以 在 文件 系 


chroot( ) 设 置 其 自己 的 根 目录 时 ， 系 统 会 月 动 将 该 进程 的 fs struct 结构 中 的 altroot 和 altrootmnt 两 个 指 
针 设置 成 给 定 路 径 名 在 前 述 子 树 中 的 对 应 节点 ， 那 个 对 应 节点 就 成 了 “和 奉 换 ” 根 目 录 。 不 过 在 1386 处 
理 器 上 的 linux 目前 并 不 支持 这 种 功能 ， 所 以 这 里 让 语句 中 的 current->fs->altroot 总 是 NULL， 因 而 不 
起 作用 。 

从 path_init( ) 成 功 返 回 时 ，nameidata 结构 中 的 指针 dentry 指 四 路 径 搜索 的 起 点 ， 接 着 就 是 通过 
path_walk( ) 顺 独 路 径 名 的 指引 进行 搜索 了 。 这 个 冰 数 比较 大 ， 所 以 我 们 逐 段 地 往 下 看 (fsnamei.c): 





414 /* 

415 * Name resolution. 

416 * 

417 * This is the basic name resolution function, turning a pathname 
418 * into the final dentry. 

419 * 
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420 * We expect 'base to be positive and a directory. 
421 */ 

422 int path_walk (const char * name, struct nameidata *nd) 
423 { 

424 struct dentry *dentry; 

425 struct inode *inode; 

426 int err; 

427 unsigned int lookup flags = nd->flags; 

428 

429 while (X*name--' /') 

430 namett : 

431 if (t*name) 

432 goto return_base; 

433 

434 inode = nd->dentry—>d_inode; 

435 if (current->link count) 

436 lookup flags = LOOKUP FOLLOW; 

437 


如 果 路 径 名 是 以 “/” 开 头 的 ， 就 把 它 跳 过 去 ， 因 为 在 这 种 情况 下 nameidata 结构 中 的 指引 dentry 
LU 经 指向 木 进程 的 根 日 未 了。 注意 ， 多 个 连续 的 “/” 与 一 个 “/” 字 符 是 等 价 的 。 如 果 路 径 名 中 仅仅 含 
有 “/” 字 符 的话 ， 那 么 其 日 标 就 是 根 目标 ， 所 以 任务 已 经 完成 ， 可 以 返回 了 。 不 然 ， 就 继续 搜索 。 

进程 的 task_struct 结构 中 有 个 计数 绒 link_count。 存 搜索 过 程 中 有 可 能 碰 人 到 一 个 节点 (目录 项 ) 只 
是 指 问 另 “个 节点 的 连接 ， 此 时 就 用 这 个 计数 器 来 对 链 的 长 度 进行 计数 ， 这 样 ， 关 链 的 长 度 达到 某 一 
个 值 时 就 可 以 终止 搜索 而 失败 返回 ， 以 防 陷 入 循环 。 田 一 方面 ， 当 顺 着 “符号 连接 ”进入 男 一 个 设备 
上 的 文件 系统 时 ， 有 可 能 会 递归 地 调用 path_walk( )。 所 以 ， 进 入 path_walk( ) 后 ， 如 果 发 现 这 个 计数 值 
非 0， 那 就 表 尔 正在 顺 着 “符号 连接 ” 递归 调用 path walk( ) 往 前 搜索 的 过 程 中 ， 此 时 不 管 怎样 都 把 
LOOKUP FOLLOW 标志 位 设 成 1。 这 里 还 要 指出 ， 作 为 path wak ) 起 点 的 节点 必定 是 -个 日 未 ，-- 
定 有 相应 的 索引 节点 存在 ， 所 以 指针 inode 一 定 是 有 效 的 ， 而 不 可 能 是 空 指针 。 

接 下 去 是 一 个 对 路 径路 的 节点 所 作 的 for 循 坏 ， 由 于 循环 体 较 大 ， 我 们 也 只 好 分 段 来 看 。 


[path_walk( )] 


438 /* At this point we know we have a real path component. */ 
439 for(;;) { 

440 unsigned long hash; 

441 struct qstr this; 

442 unsigned int c; 

443 

444 err - permission(inode, MAY EXEC); 
445 dentry = ERR PTR(err); 

446 if (err) 

447 break; 

448 

449 this. name = name; 

450 c = *(const unsigned char *) name; 
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451 

452 hash = init name hash( ); 

453 do { 

454 namett+; 

455 hash = partial name hash(c, hash); 
456 c = *(const unsigned char *)name; 
457 ) while (c && (c !=’/')); 

458 this. len = name - (const char *) this. name; 
459 this. hash = end_name_hash (hash) ; 

460 

461 /* remove trailing slashes? */ 

462 if (te) 

463 goto last component; 

464 while (#++name == '/'); 

465 if (name) 

466 goto last with slashes; 

467 


首先 检查 当前 进程 对 当前 节点 的 访问 权限 。 丙 数 permission ) 的 代码 与 作用 请 参阅 “访问 权限 与 文 
件 安全 性 ”一 节 。 这 里 所 检查 的 是 对 路 径 中 各 层 日 录 《【 而 不 是 日 标 文件 )》 的 访问 权限 。 注 意 ， 对 于 中 
回 节点 所 需 的 权限 为 “执行 ” 权 ， 即 MAY_EXEC。 如 果 权 限 不 符 ， 则 permission 返回 一 个 出 错 代 码 ， 
从 而 通过 break 诸 句 结束 循环 ， 搜 索 就 失败 了 。 

循环 体 中 的 局 部 量 this 是 个 gstr 数据 结构 ， 用 来 存放 路 径 名 中 当前 节点 的 杂凑 值 以 及 节点 名 的 长 
度 ， 这 个 数据 结构 的 定义 在 include/linux/dcache.h F: 


20 /* 

21 * “quick string” —— eases parameter passing, but more importantly 
22 * saves “metadata” about the string (ie length and the hash). 

23 */ 

24 struct qstr | 

25 const unsigned char * name; 

26 unsigned int len; 

27 unsigned int hash; 

28} 


BUNS UP II SS 453—457 行 ， 这 几 行 的 作用 就 是 逐个 字符 地 计算 出 当前 节点 名 的 杂凑 值 ， 至 于 其 
体 的 杂凑 函数 ， 我 们 就 不 关心 了 。 

路径 名 中 的 市 把 是 以 “/” 了 字符 分 隔 的 ， 所 以 紧 随 当前 节点 名 的 字符 只 有 两 种 可 能 : 

(1) 是 “W0”， 束 古 说 当前 节点 已 经 是 小 径 名 中 的 最 后 一 节 ， 所 以 转 入 last component. 

Q) 是个 “/” 宁 和 从 ,这 里 又 有 两 种 可 能 ， 第 -~ 种 情况 起 当前 节点 实际 上 已 是 路 径 名 中 的 最 后 一 个 
节 反 ， 只 不 过 在 此 后 面 又 多 添 了 若干 个 “/” 字 符 。 这 种 情况 常常 发 生 在 用 户 界面 ]-， 特 别 是 
在 shell 的 命令 行 中 ， 例 如 “]s /usr/include/” 这 是 允许 的 。 但 是 当然 最 后 的 节点 必须 是 个 目 
录 ， 所 以 此 时 转 到 last_with_slashes。 第 二 种 情况 就 是 当前 节点 为 中 间 节 点 《包括 起 始 节 点 )， 
所 以 “/” 字 符 (或 者 接连 若干 个 “/” 字 符 ) 后 面 还 有 其 他 字符 。 这 种 情况 下 就 将 其 跳 过 ， 
继续 往 下 执行 。 
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现在 ， 要 回 过 头 来 看 当前 节点 了 。 记 住 ， 这 个 节点 一 定 是 中 间 节 点 或 起 始 节 点 (否则 就 转 到 
last component 去 了 )， 这 种 节点 … 定 是 个 目录 。 对 于 代表 着 文件 的 节点 名 来 说 ， 以 “.” 开 头 表示 这 是 
个 陷 藏 的 文件 ， 而 对 于 代表 着 日 孙 的 节点 名 则 只 有 在 两 种 情况 下 才 是 允许 的 。 一 种 是 节点 名 为 “.”， 
表示 当前 目录 ， 即 不 改变 日 录 。 另 一 种 就 是 “.. ”， 表 示 当 前 目 求 的 父 上 月 录 。 

继续 往 下 看 ， 


[path_walk( )] 


468 /* 

469 *“.” and "..^ are special - ".." especially so because it has 
470 * to be able to know about the current root directory and 
471 * parent relationships. 

472 */ 

473 if (this. name[0] == '.') switch (this. len) { 

474 default: 

475 break; 

476 case 2: 

477 if (this.name[1] !=’.’) 

478 break; 

479 follow dotdot (nd) ; 

480 inode = nd-»dentry-?d inode; 

481 /* fallthrough */ 

482 case l: 

483 continue; 

484 } 


就 是 说 ， 如 果 当 前 节点 名 的 第 一 个 字符 是 “.”， 则 节点 名 的 长 度 只 能 是 1 或 者 2， 并且 当 长 度 为 2 
时 第 二 个 字符 也 必须 是 “.” 否则 搜索 就 失败 了 〔 见 475 行 和 478 行 的 break i882). 

如 果 当 前 节点 名 真 的 是 “. .” 那 就 要 往 上 - 跑 色 当前 已 经 到 达 的 节点 nd->dentry HARE. Re 
出 follow_dotdot( ) 完 成 的 ; 


[path_walk( ) > follow, dotdot( )] 


380 static inline void follow_dotdot (struct nameidata *nd) 


381 { 

382 while(1) { 

383 struct vfsmount *parent; 

384 struct dentry *dentry; 

385 read lock(&current-^fs-»lock): 

386 if (nd-»dentry == current->fs->root && 
387 nd->mnt == current->fs—>rootmnt) { 
388 read unlock (&current->fs—> lock) ; 
389 break; 

390 } 

391 read unlock (&current->fs->lock) ; 

392 spin lock(&dcache lock): 
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393 if (nd->dentry !- nd->mnt->mt root) { 
394 dentry = dget.(nd->dentry->d_ parent); 
395 spin unlock(&dcache lock); 

396 dput (nd->dentry) : 

397 nd->dentry = dentry: 

398 break; 

399 } 

400 parent=nd->mnt-—>mnt_ parent; 

401 if (parent == nd->mnt) { 

402 spin unlock(&dcache lock); 

403 break; 

404 } 

405 mntget (parent); 

406 dentry-dget (nd-^mnt-^mnt mountpoint); 
407 spin unlock(&dcache lock); 

408 dput (nd->dentry) ; 

409 nd->dentry = dentry; 

410 mntput (nd->mnt) ; 

411 nd-^?mnt = parent; 

412 ) 

413 } 


但 是 这 里 又 要 分 三 种 情况 : 

第 一 种 情况 ， 已 到 达 节 点 nd->dentry 就 是 本 进程 的 根 节点 ， 这 时 不 能 由 往 |- 跑 了 ， 所 以 保持 
nd->dentry 不 变 。 

第 二 种 和 情况， 已 到 达 节 点 nd->dentry 与 其 父 节 点 在 同一 个 设备 上 。 在 这 种 情况 N, MREZNA 
的 这 个 节点 的 dentry 结构 已 经 建立 ， 则 其 父 节 点 的 dentry 结构 也 必然 已 经 建立 企 内 存 中 ， 而 且 dentry 
结构 中 的 指针 d_parent 就 指向 其 父 节点 ， 所 以 往 上 跑 ，: 层 是 很 简单 的 事情 。 

最 后 一 种 情况 ， 己 到 达 节 点 nd->dentry 就 是 其 所 在 设备 上 的 根 节点 ， 往 上 跑 - - 层 就 要 跑 到 另 一 个 
设备 上 去 了 。 如 前 所 述 ， 当 将 一 个 存储 设备 “安装 ”到 另 - -个 设备 上 的 某 个 节点 时 ， 内 核 会 分 配 和 设 
置 一 个 vfsmount 结构 ， 通 过 这 个 结构 将 两 个 设备 以 及 两 个 节点 联结 起 来 ( 详 见 “ 义 件 系统 的 安装 与 拆 
和 扼 ”)。 所 以 ,每 个 已 经 安装 的 存储 设备 (包括 根 设备 ) 都 有 一 个 vfsmount 结构 ,结构 中 有 个 指针 mnt_parent 

提问 其 “ 父 设 备 ”， 但 是 根 设备 的 这 个 指针 则 指向 其 自己 ， 因 为 它 再 没有 “ 父 设备 ”了 ， 而 另 … 个 指针 
mnt_mountpoint， 则 指 问 代表 着 安装 点 (一定 是 个 日 录 ) 的 dentry 结构 。 从 文件 系统 的 角度 来 看 ， 安 装 
凡 与 所 安装 设备 的 根 目 汞 是 等 价 的 。 我 们 已 经 在 当前 设备 的 根 昌 录 中 ， 所 以 从 这 里 往 上 跑 一 层 就 是 要 
跑 到 安装 点 的 上 一 层 目 录 中 〔 而 不 是 安装 点 本 上 堵 )。 

先 检 僵 当前 的 vfsmount 结构 起 否 代表 着 恨 设备 ， 如 果 是 的 话 ， 立 即 就 通过 399 行 的 break AIS! 
R while(1 JA. 这样 ，nameidata 结构 中 的 dentry Al mnt 两 个 指针 就 维持 不 变 。 这 种 情况 相当 十 在 要 
目录 中 打 入 命令 “cd ..”， 或 者 “cd usr.././..” 等 等 ， 读 者 不 妨 实验 一 下 ， 看 看 结果 如 何 。 

友之， 要 是 当前 设备 不 是 根 设 备 ， 那 就 把 nameidata 结构 中 的 昌 个 指针 分 别 设 置 成 指向 上 野 设 备 的 
vfsmount 结构 以 及 该 设备 上 的 安装 点 的 上 一 层 目录 (entry 结构 )， 然 后 加 到 while(1) 循 环 的 开始 处 。 
一 役 来 说 ， 安 装点 不 会 是 个 设备 上 的 根 昌 录 ， 所 以 这 一 次 循 坏 会 将 nameidata 结构 中 的 指针 dentry 
指向 安装 点 的 父 日 录 。 可 是 ， 万 一 安装 点 真 的 就 是 上 一 层 设 备 上 的 根 目录 《当然 ， 必 定 是 空 的 ) HE? 
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那 也 不 要 紧 ， 只 不 过 是 再 循环 一 次 ， 再 往 lee. 
[1] i] path_walk( ) 的 代码 中 ， 注 意 “case 2” 的 末尾 没有 break 语句 ， 所 以 会 落 入 “case 1” 中 通过 
continue i£ 4J[P] 8j forG::) 循 环 的 开头 ， 继 续 处 理 路 径 中 的 下 一 个 节点 名 。 
当然 ， 多 数 情 况 下 节点 名 都 不 是 以 “.” 并 头 的 ， 就 是 说 多 数 情 况 下 总 是 顺 着 路 径 名 逐 层 往 下 跑 ， 
而 不 是 往 上 跑 的 。 我 们 继续 往 下 看 对 “正常 ”节点 名 的 流程 : 


[path. walk( )] 


485 /* 

486 * See if the low-level filesystem might want 

487 * to use its own hash.. 

488 */ 

489 if (nd-^»dentry-^d op && nd dentry-»d op-^d hash) { 
490 err = nd->dentry->d_op->d_hash(nd->dentry, &this); 
491 if (err < 0) 

492 break; 

493 } 

494 /* This does the actual lookups.. */ 

495 dentry = cached lookup(nd-»dentry, &this, LOOKUP CONTINUE); 
496 if (!dentry) 1 

497 dentry = real lookup(nd-»dentry, &this, LOOKUP CONTINUE); 
498 err = PTR ERR(dentry); 

499 if (IS ERR(dentry)) 

500 break; 

501 } 

502 /* Check mountpoints.. */ 

503 while (d mountpoint(dentry) && . follow down(&nd-?mnt, &dentry)) 
504 ; 
505 

506 err - -ENOENT; 

507 inode = dentry-5d inode; 

508 if (linode) 

509 goto out dput; 

510 err = -ENOTDIR; 

511 if (tinode-»i op) 

512 goto out dput; 

513 

514 if (inode->i op follow link) { 

515 err = do follow link(dentry, nd); 

516 dput (dentry) ; 

517 if (err) 

518 goto return err; 

519 err ~ -ENOENT; 

520 inode = nd->dentry—>d_inode; 

521 if (inode) 

522 break; 

523 err = -ENOTDIR; 
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524 if (tinode->i_op) 

525 break; 

526 | else { 

527 dput (nd->dentry) ; 

528 nd->dentry = dentry; 
529 } 

530 err = -ENOTDIR; 

531 if (linode->i op->lookup) 
532 break; 

533 continue; 

534 /* here ends the main loop */ 
535 


有 些 文件 系统 通过 dentry_operations 结构 中 的 指针 d hash HEE B CEHA RAG MATIX 
种 情况 下 (可 能 已 经 转 到 另 一 个 文件 系统 中 了 ) 就 通过 这 个 函数 再 计算 一 遍 当 前 节点 的 杂 潍 值 ， 

至 此 ， 所 有 的 准备 工作 都 已 完成 ， 接 下 去 就 要 开始 搜索 了 。 

对 当前 节点 的 搜索 是 通过 cached_lookup( ) 和 real_lookup( ) 两 个 函数 进行 的 。 先 通过 cache_lookup( ) 
在 内 存 中 寻找 该 节点 业已 建立 的 dentry 结构 。 内 核 中 有 个 杂凑 表 dentry_hashtable， 是 一 个 list head 指 
针 数 组 ， 一 量 在 内 存 中 建立 起 一 个 上 月 录 节 点 的 dentry 结构 ， 就 根据 其 节点 名 的 杂 凌 值 挂 入 杂凑 表 中 的 
某 个 队列 ， 需 要 寻找 时 则 还 是 根据 杂凑 值 从 杂谈 表 着 手 。 当 路 径 名 中 的 某 个 节点 变 成 path_walk( ) 的 当 
前 节点 时 ， 位 于 其 “上 游 ” 的 所 有 节点 必定 者 已 丝 有 dentry 结构 在 内 存 中 ， 而 当前 节点 本 身 及 其 “下 
游 ” 的 节点 则 不 一 定 。 如 果 在 内 存 中 找 不 到 当前 节点 的 dentry 结构 ， 那 就 要 进 步 通 过 real_lookup( ) 
到 磁盘 上 遂 过 其 所 在 的 日 录 寻 找 ， 找 到 后 在 内 存 中 为 其 建立 起 dentry SHH ZH AAR REIN ES 
队列 。 

内 核 中 还 有 一 个 队列 dentry_unused， 凡 是 已 经 没有 用 户 ， 即 共享 计数 为 0 的 dentry 结构 就 通过 结 
构 中 的 另 一 个 list head 挂 入 这 个 队列 。 这 个 队列 是 一 个 LRU 队列 , 当 需 要 回收 已经 不 在 使 用 中 的 dentry 
结构 的 空间 时 ， 就 从 这 个 队列 中 找到 已 经 空闲 最 和 久 的 dentry 结构 ， 再 把 这 个 结构 从 杂凑 表 队 列 中 脱 链 
而 加 以 释放 .所 以 ，dentry_unused 是 为 缓冲 存储 而 设置 的 辅助 性 的 队列 。 不 过 ， 在 … 些 特殊 的 情况 下 ， 
可 能 会 把 一 个 还 在 使 用 中 的 dentry 结构 从 杂凑 表 中 脱 链 ， 过 使 以 后 要 访问 这 个 节点 的 进程 重新 根据 做 
盘 上 的 内 容 另 行 构筑 一 个 dentry 结构 ， 而 已 经 脱 链 的 那个 数据 结构 则 由 最 后 调用 dput( ) 使 其 共享 计数 
变 成 0 的 进程 负责 将 其 释放 。 

事实 上 ，dentry 结构 中 有 6 个 list_head, Bll d_vfsmnt. d hash. d lru. d child, d_subdirs 和 d alias. 
注意 list head 既 可 以 用 来 作为 一 个 队列 的 头 部 ， 也 可 以 用 来 将 其 所 在 的 数据 结构 挂 入 到 某 个 队列 中 。 
其 中 d_vfsmnt 仅 在 该 dentry 结构 为 一 安装 点 时 才 使 用 。- 一 个 dentry 结构 经 建立 就 通过 其 d_hash FEX 
REK dentry_hashtable 中 的 某 个 队列 里 , 当 共 部 计数 变 成 0 时 则 通过 d_lru 挂 入 LRU 队 列 dentry_unused 
中 。 辣 时 ，dentry 结构 通过 d child 挂 入 在 其 父 节 点 (上 一 层 目 录 ) 的 d_subdirs 队列 中 ， 同 时 又 通过 指 
针 d_parent E MRS HKH dentry 结构 。 而 已 日 已 各 个 子 目 录 的 dentry 结构 则 在 它 本 器 的 d_subdirs BA 
列 中 。 

一 个 有 效 的 detnry 结构 必定 有 一 个 相应 的 inode 结构 ， 这 是 因为 :个 目下 项 要 人 么 就 代表 着 一 个 文 
件 , 要 么 就 代表 着 一 个 日 录 , 而 日 录 实 际 上 也 是 文件 。 所 以 ,只 此 是 有 效 的 dentry 结构 , 则 其 指针 d_inode 
必定 指向 A inode 结构 。 可 是 ， 友 过 米 一 个 inode 却 可 能 对 应 着 不 止 一 个 dentry 结构 ， 也 就 是 说 ， 
个 文件 可 以 有 不 止 “个 文件 名 【或 路 径 名 )。 这 是 因为 一 个 已 经 建立 的 文件 可 以 被 连接 Clink) 到 其 他 
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所 以 ， 在 inode 结构 中 有 个 队列 i_dentry， 凡 是 代表 着 这 个 文件 的 所 有 目录 项 都 通过 其 dentry 


结构 中 的 d alias 挂 入 相应 inode 结构 中 的 i_dentry 队列 。 此 外 ，dentry 结构 中 还 有 指针 d_sb， 指 向 其 
所 在 设备 的 超级 抉 的 superblock 数据 结构 ， 以 及 指针 gd_op， 指 问 特 定 文件 系统 〔 指 文件 格式 ) 的 
dentry_operations 结构 。 也 许可 以 说 ，dentry 结构 是 文件 系统 的 核心 数据 结构 ， 也 是 文件 访问 和 为 文件 
访问 而 做 的 文件 路 径 搜 索 操作 的 枢纽 。 

下 面 古 一 个 简要 的 总 结 : 


每 个 dentry 结构 都 通过 队列 头 d hash 链 入 杂凑 表 dentry_hashtable 中 的 某 个 队列 里 。 

共享 计数 为 0 的 dentry 结构 都 通过 队列 头 d_lru HEA LRU 队列 dentry_unused， 在 队列 中 等 待 
释放 或 者 “东山 再 起 ”。 

每 个 dentry 结构 都 通过 指针 d_inode 指向 一 个 inode 数据 结构 。 但 是 多 个 dentry 结构 可 以 指向 
同一 个 inode 数据 结构 。 

指向 同一 个 inode 数据 结构 的 dentry 结构 都 通过 队列 头 d. alias 链接 在 一 起 ， 都 在 该 inode Zi 
构 的 identry 队列 中 。 

每 个 dentry 结构 都 通过 指针 d. parent 指向 其 父 目录 节点 的 dentry 结构 ， 并 通过 队列 头 d_child 
跟 同 一 月 录 中 的 其 他 节点 的 dentry 结构 链接 在 一 起 ， 都 在 父 目 录 节 点 的 d. subdirs 队列 中 。 
每 个 dentry 结构 者 通过 指针 d_sb 指向 一 个 super_block 数据 结构 。 

每 个 dentry 结构 都 通过 指针 d_op 指向 一 个 dentry_operations 数据 结构 。 

每 个 dentry 结构 都 有 个 队列 头 d_vfsmnt， 用 于 文件 系统 的 安装 ， 详 见 “ 文 件 系统 的 安装 和 拆 
ml”. 


接 下 去 我 们 看 cached_lookup( ) 的 代码 Cnamei.c) : 


[path_walk( ) > cashed_lookup( )] 


243 
244 
245 
246 
247 


248 
249 
250 
251 
202 


253 
204 
255 
256 
291 
298 


/* 

* Internal lookup( ) using the new generic dcache. 

* SMP-safe 

*/ 

static struct dentry * cached lookup (struct dentry * parent, 
struct qstr * name, int flags) 

{ 


struct dentry * dentry = d lookup(parent, name); 


if (dentry && dentry->d_ op && dentry->d_op->d_revalidate) | 
if (!dentry->d op->d_revalidate(dentry, flags) && 
!d invalidate(dentry)) | 
dput (dentry) ; 
dentry = NULL; 
} 
} 
return dentry; 


} 


这 里 主要 是 通过 d_lookup( )， 在 杂 凌 表 中 寻找 ， 其 代码 在 fs/dcache.c P: 
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[path walk( ) > cashed_lookup( ) > d_lookup( )] 


703 /*ek 

704 * d lookup - search for a dentry 

105 * parent: parent dentry 

706 * (name: qstr of name we wish to find 

701 * 

708 * Searches the children of the parent dentry for the name in question. If 
709 * the dentry is found its reference count is incremented and the dentry 
710 * is returned. The caller must use d put to free the entry when it has 
711 * finished using it. %NULL is returned on failure. 

712 */ 

713 


714 struct dentry * d_lookup(struct dentry * parent, struct qstr * name) 
715 { 


716 unsigned int len = name->len; 

717 unsigned int hash = name->hash， 

718 const unsigned char *str = name->name; 

719 struct list head *head = d hash(parent, hash) ; 

720 struct list head *tmp; 

721 

722 spin lock(&dcache lock); 

123 imp = head->next; 

724 for (22) 4 

125 struct dentry * dentry = list entry(tmp, struct dentry, d hash); 
126 if (tmp -- head) 

727 break; 

728 tmp = tmp- next; 

729 if (dentry->d_name. hash != hash) 

730 continue; 

731 if (dentry—>d_parent != parent) 

732 continue; 

(33 if (parent—>d op && parent->d_op->d_ compare) | 
734 if (parent—>d_op->d_compare (parent, &dentry-»d name, name)) 
735 continue; 

736 ! else { 

737 if (dentry->d_name. len != len) 

738 continue; 

739 if (mememp(dentry-^d name.name, str, len)) 
740 continue; 

741 } 

742 __dget_locked(dentry) ; 

143 dentry->d flags |= DCACHE REFERENCED: 

744 spin unlock(&dcache lock); 

145 return dentry; 

146 } 

747 spin unlock (&dcache. lock); 

748 return NULL; 
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749  ] 
参数 parent 指 癌 上 一 层 节点 的 dentry 结构 ， 而 name jR WRIA 4E path. walk 中 建立 的 qstr 结构 。 首 
Ac X HERR ELA B A ELA Ae e er CR DV BASF ET, ASK, LAZAR RATE IE TER 
从 list head 指针 数组 dentry_hashtable 中 找到 相应 的 表 攻 是 再 简单 不 过 的 ， 可 是 这 里 (719 行 ) 还 要 通过 
一 个 函数 d_hash( ) 来 做 这 件 事 ， 让 我 们 来 看 看 为 什么 : 


[path_walk( ) > cashed lookup() > d lookup( ) > d hash( )] 


696 static inline struct list head * d hash(struct dentry * parent, 
unsigned long hash) 

697 | 

698 hash += (unsigned long) parent / L1 CACHE BYTES; 

699 hash = hash ^ (hash >> D HASHBITS) ^ (hash >> D HASHBITS*2) ; 

100 return dentry hashtable + (hash & D HASHMASK) ; 

701 } 


WEL, FECA TE DAI FS AR ee LIA ET RARE, ESL ES dentry 结构 
的 地 址 也 结合 进 杂 凑 值 中 。 这 无 疑 是 很 巧妙 的 做 法 。 试 想 一 下 学 校 的 计算 机 实验 室 ， 那 里 的 系统 可 能 
为 于 百 个 学 后 分 刊 在 /home 下 面 建立 了 子 目 录 ， 而 每 个 学 生 的 子 日 录 下 可 能 部 有 子 日 了 水 “projectl”。 如 
果 光 是 对 节点 名 “project1” 杂 诸 ， 则 势必 至 少 有 上 百 个 dentry 结构 部 挂 企 同 -队列 中 而 家 要 线性 搜索 。 
即使 把 父 节 点 名 也 一 起 杂凑 还 是 解决 不 了 问题 ， 因 为 每 个 学 竺 都 可 能 会 有 例如 “projectl/sre”， 所 有 此 
类 路 径 中 的 “sre” 节 点 义 会 在 同一 个 队 州 中 ， 对 全 路 征 名 进行 杂凑 当然 可 以 解决 问题 ， 但 是 孝 样 代价 
XXE. 

找到 了 相应 的 队列 头 部 以 后 ，d_lookup( ) 中 的 for 循环 趾 简 单 的 。 惟 - -特殊 之 处 是 具体 的 文件 系统 
可 能 通过 其 dentry_operations 结构 提供 日 己 的 节点 名 比 对 函数 (比方 说 , 有 些 文 件 系统 可 能 在 比 对 时 跳 
过 所 有 的 空格 })， 没 有 的 诈 语 用 普通 的 memempt )。 

[E14] cached_lookup( ) 的 代码 中 ， 有 具体 的 文件 系统 可 能 通过 其 dentry_operations 结构 提供 一 个 对 找 
到 的 dentry 结构 进行 验证 《和 处 理 ) 的 函数 ， 如 果 验 证 失败 就 此 通过 d_invalidate( ) 将 这 个 数据 结构 从 
杂 凌 队 人 多 中 脱 链 ， 这 种 安排 对 有 些 文件 系统 是 必 此 的， 例如 在 “网 络 文件 系统 ”NEFS 中 ， 如 果 … 个 远 
程 的 进程 是 其 惟 ， 的 用 户 ， 又 有 很 氏 时 间 没 有 访问 这 个 结构 了 ， 那 加 应 该 将 其 视 作 无 禾 ， 而 根据 磁盘 
上 的 父 日 或 内 容 来 壬 新 构造 。 具 体 的 函数 由 该 文件 系统 的 dentry_operations 结构 中 通过 函数 指针 
d revalidate 提供 ， 最 后 则 根据 验证 的 结果 退回-- 个 dentry 指针 或 出 错 代码 。 不 过 ， 有 的 文件 系统 根本 
就 不 提供 dentry_operations 数据 结构 ， 所 以 其 dentry 结构 中 的 d. op 是 0， 表示 按 Linux 的 认 的 方式 处 
理 各 项 目下 项 拘 作 。 事 实 上，Ext2 就 不 提供 其 白山 的 dentry_operations 结构 ， 因 为 Linux BRUM XR 
是 Ext2。 进 一 步 ， 即 使 某 个 文件 系统 提供 了 日 已 的 dentry_operations 数据 结构 ， 也 并 不 一 定 提 供 目 己 
[4 d revalidate 操作 。 所 以 ， 代 码 中 要 先 对 这 两 个 指针 加 以 检验 。 由 于 Ext2 并 不 提供 其 日 己 的 
dentry operations 结构 ， 我 们 号 把 它 跳 过 了 . 

至 此 ，cached_lookup( ) ER T o 

如 果 所 需 的 dentry 结构 不 在 杂凑 表 队 列 中 或 者 已 经 无 效 ， 则 返回 NULL。 那 样 ， 号 要 进一步 通过 
real_lookup( ) 从 父 日 录 华 磁盘 上 的 内 容 中 找到 本 节点 的 日 录 项 , 再 根据 其 内 容 在 内 存 中 为 之 建立 起 个 
dentry 结构 《 见 path_walk( ) 的 497 47). FHA real_lookup( ) 的 代码 ( 见 namei.c) : 
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[path walk( ) > real_lookup( )] 


260 
261 
262 
263 
264 
265 
266 
267 
268 


269 
270 
271 
272 
273 
274 
275 
276 
277 
278 
279 
280 
281 
282 
283 
284 
285 
286 
287 
288 
289 
290 
291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
302 
303 
304 


/* 

* This is called when everything else fails, and we actually have 

* to go to the low-level filesystem to find out what we should do.. 

* 

* We get the directory semaphore, and after getting that we also 

* make sure that nobody added the entry to the dcache in the meantime.. 
* SMP-safe 

*/ 

static struct dentry * real lookup (struct dentry * parent, 

struct qstr * name, int flags) 


struct dentry * result; 
struct inode *dir = parent—>d_inode; 


down (&dir->i sem); 
/* 
* First re-do the cached lookup just in case it was created 
* while we waited for the directory semaphore. . 
* 
* FIXME! This could use version numbering or similar to 
* avoid unnecessary cache lookups. 
*/ 
result - d lookup(parent, name); 
if (!result) { 
struct dentry * dentry - d alloc(parent, name): 
result - ERR PTR(-ENOMEM) ; 
if (dentry) { 
lock kernel( ); 
result = dir->i op->lookup(dir, dentry); 
unlock kernel( ); 
if (result) 
dput (dentry) ; 
else 
result = dentry; 
} 
up (&dir—>i_sem) ; 
return result; 


} 


/* 
* Uhhuh! Nasty case: the cache was re-populated while 
* we waited on the semaphore. Need to revalidate. 
*/ 
up(&dir-^i sem); 
if (result-^d op && result-^d op-^d revalidate) { 
if (!result~>d_op->d_revalidate(result, flags) && 
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!d invalidate(result)) { 


305 dput (result) ; 

306 result = ERR PTR(-ENOENT); 
307 } 

308 } 

309 return result; 

310  ] 


建立 dentry 结构 的 过 程 不 容许 受到 其 他 进程 的 和 干扰， 所 以 必须 通过 信和 号 量 放 在 临界 区 .中 进行 。 但 
是 ， 在 通过 down( ) 进 入 临界 区 时 可 能 会 经 历 一 段 睡 眠 等 待 的 时 间 ， 而 其 他 进程 有 可 能 已 经 在 这 段 时 间 
中 把 所 需 的 dentry 结构 建立 好 , 再 建立 个 就 重复 了 。 所 以 ,在 进入 临界 区 以 后 , EA, d_lookup() 
确认 一 下 所 需 的 dentry 结构 确实 不 在 杂凑 表 队 列 中 。 读 者 在 前 耐 几 章 中 也 看 刘 过 类 似 的 情况 ， 总 的 来 
说 ， 这 是 一 种 规范 性 的 处 理 方式 。 万 ，: 真 的 发 生 了 这 种 情况 ， 那 就 根据 具体 文件 系统 的 要 求 而 《可 能 ) 
调用 一 个 函数 进行 -- 些 验证 和 处 理 C 5 cached_lookup( ) 中 相似 )。 当 然 , 发 生 这 种 情况 的 概率 是 很 低 的 ， 
在 多 数 情况 下 部 需要 建立 dentry 结构 。 

要 建立 起 -个 dentry 结构 ， 首 先 当 然 要 为 之 分 配 空间 并 初始 化 , 这 是 由 283 行 的 d_alloc( ) 完 成 的 ， 
其 代码 在 dcache.c F: 


[path_walk( ) > real_lookup( ) > d. alloc( )] 


589 /六 水 

590 * d alloc - allocate a dcache entry 

591 * @parent: parent of entry to allocate 

592 * (name: qstr of the name 

593 * 

594 * Allocates a dentry. It returns WNULL if there is insufficient memory 
595 * available. On a success the dentry is returned. The name passed in is 
596 * copied and the copy passed in may be reused after this call. 

597 */ 

598 

599 struct dentry * d alloc(struct dentry * parent, const struct qstr *name) 
600 { 

601 char * str; 

602 struct dentry *dentry; 

603 

604 dentry = kmem cache alloc(dentry, cache, GFP. KERNEL); 

605 if (!dentry) 

606 return NULL; 

607 

608 if (name->len > DNAME INLINE LEN-1) { 

609 str = kmalloc(NAME ALLOC LEN(name-»len), GFP KERNEL); 

610 rfl str): 4 

611 kmem cache free(dentry cache, dentry) ; 

612 return NULL; 

613 } 

614 | else 
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615 str = dentry-5d iname; 

616 

617 memcpy (str, name->name, name-?len): 
618 str{name->len] = 0; 

619 

620 atomic_set (&dentry—>d count, 1); 
621 dentry-?d flags = 0; 

622 dentry->d_inode = NULL; 

623 dentry~>d_ parent = NULL: 

624 dentry->d_sb = NULL; 

625 dentry~>d_name. name = str; 

626 dentry-^d name. len = name-^len; 

627 dentry-»d name.hash = name-^hash; 
628 dentry-?d op = NULL; 

629 dentry-^d fsdata = NULL; 

630 INIT LIST HEAD(&dentry-^d vfsmnt); 
631 INIT_LIST_HEAD (&dentry-^d hash); 
632 INIT LIST HEAD(&dentry— d lru); 

633 INIT LIST HEAD(&dentry-^d subdirs); 
634 INIT LIST HEAD (&dentry-^d alias); 
635 if (parent) { 

636 dentry~>d parent = dget (parent) ; 
637 dentry-?d sb = parent-?^d sb; 
638 spin lock(&dcache lock); 

639 list add(&dentry-^d child, &parent->d_subdirs) ; 
640 spin unlock(&dcache lock); 

641 } else 

642 INIT LIST HEAD(&dentry-»d child); 
643 

644 dentry stat.nr dentry**; 

645 return dentry; 

646  ] 


从 这 段 程序 中 我 们 可 以 看 到 ，dentry 数据 结构 是 通过 kmem allec( ) 从 为 这 种 数据 结构 专 设 的 slab 
队列 中 分 配 的 。 当 节点 名 较 短 时 ，dentry 结构 中 有 个 字符 数组 d_iname 用 来 保存 节点 名 ， 厅 然 就 要 另行 
为 之 分 配 空间 。 不 管 怎样 ，dentry 结构 中 的 d_name.name 总 是 指向 这 个 字符 串 。 此 外 ，dentry 结构 中 指 
加 超级 块 结构 的 指针 d sb 是 从 其 父 节 点 (目录 ) 继承 下 来 的 。 每 当 建立 了 -个 dentry 结构 时 ， 就 要 将 
RETA CUP 除外 ， 它 没有 父 节点 ) 的 共享 计数 通过 dget( ) 递 增 ， 所 以 这 个 新 建 的 dentry 结构 就 成 了 
其 父 节 点 的 dentry 结构 的 一 个 “用 户 ” 并 且 要 挂 入 父 节点 的 d_subdirs 队列 中 。 注意 父 节点 的 d_subdirs 
队列 中 只 包含 在 内 存 中 建 有 dentry 结构 的 目录 项 。 

加 到 real_lookup( ) 的 代码 中 。 分 配 了 空间 以 后 ， 就 要 从 磁盘 上 由 父 节点 代表 的 那个 目录 中 寻找 当 
前 节点 的 目录 项 并 设置 结构 中 的 其 他 信息 。 如 果 寻 找 失 败 ， 就 通过 dput( ) 撤 销 已 经 分 配 空间 的 dentry 
结构 。 如 果 成 功 ， 就 通过 函数 real_lookup( ) 的 295 行 的 return 语句 返回 指向 该 dentry 结构 的 指针 。 

从 磁盘 上 寻找 的 过 程 因 文 件 系统 而 异 ， 所 以 要 通过 父 节 点 inode 结构 中 的 指针 i op 找到 相应 的 
inode operations 数据 结构 。 对 于 代表 着 目录 的 inode 和 代表 着 文件 的 inode, 其 inode_operatians 结构 常 
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常 是 不 同 的 。 就 Ext2 而 言 ， 对 于 日 录 节 点 的 函数 跳 转 结构 为 ext2_dir_inode_operations ， 定 义 见 


fs/ext2/namei.c : 


811 
812 
813 
814 
815 
816 
817 
818 
819 
820 
821 
822 
823 
824 


/* 


* directories can handle most operations... 


struct inode operations ext2_dir_inode_operations = { 


j^ 


create: ext2 create, 
lookup: ext2 lookup, 
link: ext2 link, 
unlink: ext2 unlink, 
symlink: ext2 symlink, 
mkdir: ext2 mkdir, 
rmdir: ext2 rmdir, 
mknod: ext2 mknod, 
rename: ext2 rename, 


可 见 ， 具 体 的 函数 为 ext2_lookup( )， 其 代码 在 同一 文件 (fsyext2/namei.c) 中 : 


[path, walk( ) > real lookup( ) > ext2_lookup( )] 


163 
164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 


static struct dentry *ext2 lookup(struct inode * dir, struct dentry *dentry) 


{ 


} 


struct inode * inode; 
struct ext2 dir entry 2 * de; 
struct buffer head * bh; 


if (dentry-^d name. len > EXT2 NAME LEN) 
return ERR PTR(-ENAMETOOLONO) ; 


bh = ext2 find entry (dir, dentry-^d name.name, dentry-^d name.len, &de); 
inode = NULL; 
if (bh) { 

unsigned long ino = le32 to cpu(de->inode) ; 

brelse (bh); 

inode = iget(dir->i_sb, ino); 


if (!inode) 
return ERR PTR(-EACCES) ; 
} 
d add(dentry, inode); 
return NULL; 


这 里 先 出 ext2, find. entry( ARR EFRBIFFEA SAT PRAY SRT, SA eid iget( ) 根 据 索 引 节 点 
号 从 磁盘 读 入 相应 索引 节点 并 在 内 存 中 建立 起 相对 的 inode 结构 , 最 后 , 由 d add 完成 dentry 结构 的 设 
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置 并 将 其 拌 入 杂凑 表 中 的 某 个 队列 。 


LXX ext2_find_entry( ) 的 代码 也 在 fs/ext2/namei.c F; 


[path_walk( ) > real lookup( ) > ext2_lookup( ) > ext2 find entry( )] 


52 
53 
54 
55 
56 


/* 
* ext2 find entry( ) 


finds an entry in the specified directory with the wanted name. It 
returns the cache buffer in which the entry was found, and the entry 
itself (as a parameter - res dir). It does NOT read the inode of the 
entry - you'll have to do that yourself if you want to. 


兴 + X X* X 


*/ 

static struct buffer head * ext2 find entry (struct inode * dir, 
const char * const name, int namelen, 
struct ext2 dir entry 2 *** res dir) 


struct super block * sb; 

struct buffer head * bh use[NAMET RA SIZE]; 
struct buffer head * bh read[NAMEI RA SIZE]; 
unsigned long offset; 

int block, toread, i, err; 


*res dir = NULL; 
sb = diri sb; 


if (namelen > EXT2 NAME LEN) 
return NULL; 


memset (bh use, 0, sizeof (bh use)); 

toread - 0; 

for (block = 0; block < NAMEI RA SIZE; ++block) { 
struct buffer head * bh; 


if ((block << EXT2 BLOCK SIZE BITS (sb)) >= diri size) 
break; 

bh = ext2 getblk (dir, block, 0, &err); 

bh use[block] = bh; 

if (bh && 'buffer uptodate (bh) ) 
bh_read[toread++] = bh; 


for (block = 0, offset = 0; offset < dir->i size; block++) { 
struct buffer head * bh; 
struct ext2 dir entry 2 * de; 
char * dlimit; 
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94 if ((block % NAMEI RA BLOCKS) == 0 && toread) { 
95 1l rw block (READ, toread, bh read); 

96 toread = 0; 

97 } 

98 bh = bh_uselblock % NAMEI RA SIZE]; 

99 if (!bh) { 

100 Bif 0 

101 ext2 error (sb, “ext2 find entry, 

102 "directory #%lu contains a hole at offset %lu’, 
103 dir-^i ino, offset); 

104 ftendif 

105 offset += sb-»s blocksize; 

106 continue; 

107 } 

108 wait on buffer (bh); 

109 if (!buffer uptodate(bh)) { 

110 /六 

lil * read error: all bets are off 

112 */ 

113 break; 

114 } 

115 

116 de = (struct ext2 dir entry 2 *) bh->b data; 
117 dlimit = bh->b data + sb->s_blocksize; 

118 while ((char *) de < dlimit) | 

119 /* this code is executed quadratically often */ 
120 /* do minimal checking by hand’ */ 

121 int de ien; 

122 

123 if ((char *) de + namelen <= dlimit && 

124 ext2 match (namelen, name, de)) { 

125 /* found a match - 

126 just to be sure, do a full check */ 
127 if (lext2 check dir entry('ext2 find entry", 
128 dir, de, bh, offset)) 
129 goto failure; 

130 for (i = 0; i < NAI RA SIZE; ++i) { 
131 if (bh use[i] != bh) 

132 brelse (bh useli]): 

133 } 

134 *res dir = de; 

135 return bh; 

136 } 

137 /* prevent looping on a bad block */ 

138 de len = lel6_to_cpu(de->rec_len) ; 

139 if (de_len <= 0) 

140 goto failure; 

141 offset += de_len; 


- 450 . 


第 5 章 文件 系统 


142 de = (struct ext2 dir entry 2 X) 

143 ((char *) de * de len); 

144 } 

145 

146 breise (bb); 

147 if (((block + NAMEL RA SIZE) << EXT2 BLOCK SIZE BITS (sb)) >= 
148 dir->i_ size) 

149 bh = NULL; 

150 else 

]51 bh = ext2 getblk (dir, block + NAMET RA SIZE, 0, &err): 
152 bh use[biock % NAMEI RA SIZE] = bh; 

153 if (bh && !buffer uptodate (bh)) 

154 bh_read[toreadt++] = bh; 

155 } 

156 

157 failure: 

158 for (i = 0; i < NAMEI RA SIZE; ++i) 

159 brelse (bh_use[i]); 

160 return NULL: 

161  ] 


这 段 程序 涉及 文件 的 读 操作 ， 读 者 可 以 在 学 习 了 “文件 的 读 写 ”一 节 以 及 本 书 下 朋 “ 设 备 驱 动 ” 
一 章 后 再 辐 过 来 仔细 阅读 ， 这 里 只 作 一 些 必 要 的 说 明 。 目 录 其 实 只 是 一 种 特殊 格式 的 文件 ， 就 Ext2 X 
件 系统 而 言 ， 日 录 文 件 的 内 容 在 概念 上 就 是 一 个 ext2_dir_entry_2 结构 数组 〈 见 前 节 )， 其 目的 仅 在 于 
根据 节点 名 《最 长 可 达 255 个 字符 ) 得 到 相应 的 索引 节点 号 ， 所 以 从 逻辑 的 角度 讲 是 很 简单 的 。 为 什 
么 只 是 说 “ 概 您 上 ”是 ext2_dir_entry_2 结构 数组 呢 ? 因为 实际 上 不 是 。 前 一 节 中 讲 过 ,ext2_dir_entry_2 
结构 的 长 嵌 是 不 贿 定 的 (节点 名 可 长 达 255, 但 通常 只 起 几 个 字符 , 而 一 个 文件 系统 中 也 许 有 数 万 个 日 
录 项 )， 结 构 中 有 个 字段 rec len 指明 本 结构 的 长 度 。 既 然 不 是 固定 长 度 的 ， 就 不 能 像 真 正 的 数组 那样 
通过 下 标 来 计算 出 具体 元 素 的 位 置 ， 出 只 好 采用 线性 搜索 的 办 法 〈 这 是 一 个 “以 时 间 换 空间 ”的 例 了 )。 
不 过 ， 为 了 避免 内 日 录 项 跨 磁盘 记录 块 而 造成 处 理 上 的 不 便 ，Ext2 文件 系统 在 为 目录 项 分 配 磁盘 空间 
时 不 让 路 记录 块 。 如 果 一 个 记录 块 中 剩 下 的 空间 已 经 不 够 就 另 起 个 记录 块 。 

不 同 的 处 理 器 在 存 取 数 据 时 在 学 节 的 排列 次 序 上 有 所 谓 “big ending" WI “little ending” 之 分 。 例 
如 ，i386 就 是 “little ending” 的 处 理 占 ， 它 在 存储 一 个 16 位 数据 0x1234 WYSE Ba CE RENANE 0x3412， 
对 于 32 位 数据 也 与 此 类 似 。 这 里 的 索引 节点 号 与 记录 长 度 都 作为 32 位 或 16 位 无 符号 整数 存储 在 伐 盘 
二 的 ,而 同一 磁 盐 既 可 以 安装 在 采用 "little ending "方式 的 CPU 的 机 器 上 ,也 可 能 安装 在 采用 “big ending” 
方式 的 CPU 的 机 器 上 ， 所 以 要 选择 一 种 形式 作为 标准 。 事 实 上 ，Ext2 采用 的 标准 是 “little ending”, 
所 以 在 使 用 仓储 企 伐 桩 上 大 寺 8 位 的 整数 时 此 先 通过 le32_to_cpu( ) 、le16_to_cpu( ) 等 函数 将 这 些 数 据 
MA "little ending” 形 式 转换 成 具体 CPU 所 采用 的 形式 。 当 然 ， 人 在 i386 处 理 器 上 访问 Ext2 文件 系统 时 
这 些 函 数 实际 上 不 作 任何 转换 。 

由 于 伐 各 的 物 球 特性 ， 从 磁盘 读 一 个 记录 块 震 要 一 定 的 时 间 ， 而 这 些 时 间 主 要 消耗 在 准备 工作 上 。 
一 旦 准 备 好 了 ， 读 一 个 记录 块 与 读 几 个 记录 块 所 需 时 间 其 实 相 差 个 大 。 所 以 比较 好 的 办 法 是 既然 读 了 
就 往 前 “ 预 读 ”(Read Ahead) 一 些 记录 块 ,因为 紧 接 着 的 这 些 记录 块 很 可 能 马上 就 要 用 到 。 另 一 方面 ， 
从 磁盘 读 记录 块 的 操作 一 经 启动 便 由 磁盘 自行 完成 ， 而 无 需 CPU 介入 。 所 以 ， 从 读 的 第 - 批 记录 块 到 
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位 以 后 ，CPU 对 记录 块 的 处 理 就 可 以 跟 后 续 记 录 块 的 读 入 相 平行 ， 从 而 形成 流水 操作 。 那么 生前 多 少 
块 比较 合适 呢 ? 那 要 看 具体 情况 了 ， 对 寺 从 磁 横 读 入 目录 内 容 这 个 特定 的 县 的 ， 代 伍 中 定义 了 儿 个 党 
数 ( 见 文件 ext2/namei.c): 


28 /* 
29 * define how far ahead to read directories while searching them. 
30 */ 


31 define NAMEI RA CHUNKS 2 

32  #define NAMEI RA BLOCKS 4 

33 #define NAMEI RA SIZE (NAMEI RA CHUNKS * NAMEI RA BLOCKS) 
34 . #define NAMEI RA INDEX(c, b) (((c) * NAMEI RA BLOCKS) + (b)) 


所 以 ， 预 读 的 提前 景 为 8 个 记录 块 ， 也 就 症 说 ， 估 计 在 读 入 一 个 记录 块 所 需 的 时 间 内 CPU 可 以 处 
Pg 8 MURIR. 

对 十 从 磁 插 读 入 的 记录 块 部 要 在 前 面 加 上 一 个 头 部 ， 旭 buffer head 数据 结构 以 便 管 理 。 山 于 从 磁 
筑 读 入 一 个 记录 块 的 代价 不 小 ， 对 已 经 沪 入 的 记录 块 部 不 是 用 了 即 把 的 ， 而 是 要 化 内 存 中 加 以 级 神 存 
储 。 所 以 ， 有 时 候 并 不 需要 真 的 到 磁盘 上 去 读 。 但 是 ， 这 样 ~… 来 有 时 候 绥 冲 存 储 着 的 记 汞 块 与 磁盘 上 
的 记录 块 就 可 能 不 AT. 

代码 中 为 记 逮 块 没 置 了 岗 个 指针 数组 ， 一 个 是 bh_use[ ];. 0 ^ AE bh_read[ ]， 大 小 都 是 
NAMEI RA_SIZE， 即 8。 首 先 通过 一 个 for 循 坏 ， 调 用 ext2_getblk( ) 从 缓冲 着 的 记录 块 中 找到 给 定 月 
RLT 8 个 逻辑 记录 块 ， 或 者 就 为 之 分 配 缓冲 区 ， 并 将 它们 的 buffer head 结构 指针 写 入 数组 
bh, use[ ]， 将 bh_use[ j 填 满 。 这 就 是 要 搜索 的 第 一 批 次 。 当 然 ， 如 果 这 个 目录 文件 的 大 小 偿 不 够 8 个 记 
录 块 ( 见 78 行 ) MABIG (注意 ， 参 数 dir 指向 其 inode 结构 ， 而 不 是 dentry 结构 )。 在 这 8 个 记 
录 块 中 ， 如 果 有 的 已 经 与 磁 插 上 不 一 致 《 见 85 行 )， 则 要 在 另 一 个 数组 bh read[ FERE, Rae 
真正 要 从 磁盘 上 读 的 。 至 丁 新 分 配 的 缓冲 区 ， 那 当然 与 磁盘 上 不 一 致 。 

接着 是 对 目录 文件 中 所 有 记录 块 的 for 循环 , 对 上 月 标 节 点 的 搜索 就 是 打 描 所 有 记录 块 中 的 所 有 目下 
项 。 循 环 从 block 0 开始 ， 每 隔 NAMEI RA BLOCKS 个 就 启动 一 次 读 人 磁 吾 操作 (如果 需要 的 话 )， 每 
次 最 多 读 8 块 ， 而 数组 bh read[ 1 则 给 出 所 需 记录 块 的 “名 单 ”。 第 一 次 把 8 个 缓冲 区 填 满 以 后 ， 冉 往 
后 的 从 磁盘 读 入 与 CPU 的 处 理 就 可 以 形成 一 种 流水 线 式 的 操作 了 。 由 杆 从 磁盘 读 入 是 异步 的 ，CPU 在 
得 处 理 … 个 记录 块 之 前 都 要 通过 wait_on_buffer( )& Pri RRA. (HEN EB MLNS Rae wey LÀ 
达到 基本 上 不 需要 什么 等 待 的 程度 。 

至 于 在 记录 块 中 搜索 的 过 程 ， 那 就 很 简单 了 《 见 116 一 144 172. BIA Ext2 的 县 有 录 项 是 可 变 大 小 的 ， 
但 是 却 不 会 跨 记 录 块 存储 ， 所 以 每 个 记录 上 块 的 升 始 必 然 也 是 一 :个 日 录 项 的 开始 ( 见 116 行 )， 人 而 一 个 记 
蒜 块 内 有 几 个 目录 项 于 就 不 一 定 了 。 在 找到 了 所 需 的 目录 项 以 后 ， 要 将 其 他 的 记录 块 绥 加 区 释放 ， 只 
留 下 该 目录 项 所 在 的 那个 记录 块 ( 见 130~133 行 )。 最 后 返回 目录 项 所 在 的 记录 块 , 并 通过 参数 res. dir 
返回 日 录 需 指针 。 

回 到 ext2_lookup( ) 的 代码 中 ， 下 一 步 是 根据 得 得 的 索引 节点 号 通过 iget( ) 找 到 或 建立 起 所 项 的 
inode 结构 ， 这 里 的 iget( ) 是 个 inline 函数 ， 定 义 于 indude/linux/fs.h: 


[path_walk( ) > real lookup( ) > ext2 lookup( ) > iget( )] 
1185 static inline struct inode *iget (struct super block *sb, unsigned long ino) 
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1186 { 
1187 return iget4(sb, ino, NULL, NULL): 
1188  ] 


函数 iget4( ) 的 代码 在 fs/inode.c P: 
[path_walk( ) > real lookup( ) > ext2 lookup( ) > iget( ) > iget4( )] 


774 struct inode *iget4(struct super block *sb, unsigned long ino, 
find_inode_t find_actor, void *opaque) 


75 { 

776 struct list head * head = inode hashtable + hash(sb, ino) ; 
777 struct inode * inode; 

778 

779 spin lock(&inode lock); 

780 inode - find inode(sb, ino, head, find actor, opaque); 
781 if (inode) | 

782 __ iget (inode) ; 

783 spin unlock(&inode lock); 

784 wait_on_inode (inode) : 

785 return inode; 

786 } 

787 spin unlock(&inode lock); 

788 

789 /* 

190 * get new inode( ) will do the right thing, re-trying the search 
791 * in case it had to block at any point. 

792 */ 

793 return get_new_inode(sb, ino, head, find actor, opaque) ; 
794} 


同样 , 目标 节点 的 inode 结构 也 可 能 已 经 在 内 存 中 , 也 可 能 需要 从 磁盘 上 读 入 其 索引 节点 后 在 内 存 
中 创建 。 就 像 dentry 结构 有 个 杂凑 表 dentry_hashtable 一 样 ，inode 结构 也 有 个 杂 凌 表 inode_hashtable， 
已 经 建立 的 inode 结构 都 通过 结构 中 的 i_hash (也 是 一 个 list head). 挂 在 该 洒 凌 表 的 某 一 个 队列 中 ， 所 
以 首先 要 通过 find_inode( ) 在 杂凑 表 队 列 中 寻找 。 找 到 后 就 通过 iget( ) 递 增 其 共享 计数 。 由 于 索引 节点 
号 只 在 同一 设备 上 才 是 惟 的， 在 杂凑 计算 时 要 把 所 在 设备 的 super. block 结构 的 地 址 也 结合 进去 。 

监 是 杂凑 表 的 队列 中 找 不 到 所 需 的 inode 结构 ， 那 就 要 通过 get_new_inode( ARER E BE AG SZ 
索引 节点 并 建立 起 一 个 inode 结构 ， 其 代 色 在 fs/inode.c 中 : 


[path_walk( ) > real lookup( ) > ext2_lookup( ) > iget( ) > get_new_inode( )] 


649 /水 

650 * This is called without the inode lock held.. Be careful. 
651 * 

652 * We no longer cache the sb flags in i flags - see fs.h 
653 * -—- rmkGarm. uk. linux. org 
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654 
655 


656 
657 
658 
659 
660 
661 
662 
663 
664 
665 
666 
667 
668 
669 
670 
671 
672 
673 
674 
675 
676 
677 
678 
679 
680 
681 
682 
683 
684 
685 
686 
687 
688 
. 689 
690 
691 
692 
693 
694 
695 
696 
697 
698 
699 
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*/ 


static struct 
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inode * get new inode (struct super_block *sb, 
unsigned long ino, struct list_head *head, 
find inode t find actor, void *opaque) 


struct inode * inode; 


inode = alloc inode( ); 


if (inode) 
struct 


{ 


inode * old; 


spin lock(&inode lock); 
/* We released the lock, so.. */ 
old = find inode(sb, ino, head, find actor, opaque); 
if (Cold) | 
inodes stat. nr_inodest+; 
list add(&inode-^i list, &inode in use); 
list add(&inode-^i hash, head); 
inode-^i sb = sb; 
inode->i dev = sb-5s dev; 


inode-^i ino 


IE 


ino; 


inode-?i flags = 0; 

atomic set(&inode-^i count, 1); 
inode-^i state = I LOCK; 

spin unlock(&inode lock); 


clean inode(inode); 


sb- 


/* 


* 
* 
* 
* 
x 
* 


*/ 


>s_op->read_inode (inode) ; 


This is special! We do not need the spinlock 
when clearing I LOCK, because we're guaranteed 
that nobody else tries to do anything about the 
state of the inode when it is locked, as we 
just created it (so there can be no old holders 
that haven't tested I LOCK). 


inode->i state &- ^I LOCK; 
wake up(&inode-^i wait); 


return inode; 


[* 


* Uhhuh, somebody else created the same inode under 


* us. 


Use the old inode instead of the one we just 


* allocated. 


*/ 
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700 . iget (old); 

701 spin unlock(&inode lock): 
702 destroy_inode (inode) : 

703 inode = old; 

704 wait_on_inode (inode) ; 

705 } 

706 return inode; 

707 } 


这 个 函数 的 代码 与 前 面 dentry 结构 的 分 配 和 建立 很 相似 ， 至 于 从 磁盘 读 入 索引 节点 的 过 程 则 取决 
于 具体 的 文件 系统 。 有 的 文件 系统 在 磁盘 上 可 能 并 不 存在 “索引 节点 ”这 么 一 种 东西 ， 但 是 在 概 念 上 
必 有 相通 之 处 。 所 以 ， 对 有 的 文件 系统 来 说 是 “ 读 入 ”索引 节点 ， 而 对 有 的 文件 系统 则 是 将 磁盘 上 的 
有 大 信 息 变 换 成 -个 索引 节点 。 其 实 ， 所 谓 超 级 块 、 目 录 项 也 莫不 如 此 。 注 意 代码 中 对 新 创建 inode 
结构 中 i_dev 等 字段 的 设置 。 以 前 讲 过 ，inode 结构 中 的 i_dev 表示 这 个 结构 所 代表 的 文件 所 在 的 设备 ， 
这 里 可 以 看 到 它 的 值 来 自 所 在 设备 的 super_block 数据 结构 ， 是 在 从 设备 上 读 入 索引 节点 之 前 就 设置 好 
TH. BA, RAS ino 仅 在 同一 设备 上 才 是 惟一 的 ， 所 以 要 与 设备 号 CER super block 结构 ) 合 
在 起 才能 在 全 系统 范围 中 惟一 地 确定 一 个 索引 节点 及 其 inode 结构 。 这 也 是 为 什么 find. inode( ) 的 参 


对 于 索引 节点 的 读 入 ,具体 的 函数 是 通过 函数 上 转 表 super. operations 结构 中 的 函数 指针 read_inode 
提供 的 。 每 个 设备 的 super block 结构 中 都 有 一 个 指针 s_op， 指 向 具体 的 跳 转 表 。 对 于 Ext2 来 说 ， 这 
个 跳 转 表 就 是 ext2_sops， 具 体 的 函数 则 是 ext2_read_inode( )〔 见 文件 fs/ext2/super.c)。 


148 static struct super_operations ext2_sops = { 


149 read inode: ext2 read inode, 

150 write inode: ext2 write inode, 
151 put inode: ext2 put inode, 

152 delete inode: ^ ext2 delete inode, 
153 put super: ext2 put super, 

154 write super: ext2 write super, 
155 statfs: ext2 statfs, 

156 remount fs: ext2 remount, 

jor E 


函数 ext2. read. inode( ) 的 代码 则 在 fs/ext2/inode.c 中 : 
{path_walk( ) > real_lookup( ) > ext2_lookup( ) > iget( ) > get_new_inode( ) > ext2 read inode( )] 


961 void ext2 read inode (struct inode * inode) 


962 { 

963 struct buffer head * bh; 

964 struct ext2 inode ** raw inode; 
965 unsigned long block group; 

966 unsigned long group desc; 

967 unsigned long desc; 

968 unsigned long block; 
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969 
970 
971 
972 


973 
974 
975 


976 
977 
978 
979 
980 
981 
982 
983 
984 
985 
986 
987 
988 
989 
990 
991 
992 
993 
994 
995 
996 
997 
998 
999 
1000 
1001 
1002 
1003 
1004 
1005 
1006 
1007 
1008 
1009 
1010 
1011 
1012 
1013 
1014 
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unsigned long offset; 
struct ext2 group desc * gdp; 


if ((inode-^i ino != EXT2_ROOT_INO && 


inode-»i ino !- EXT2 ACL IDX TNO && 
inode->i ino !- EXT2 ACL DATA INO && 
inode i ino < EXT2 FIRST_INO(inode—>i_sb)) || 
inode-?i. ino > 
le32 to cpu(inode— i sb-^u.ext2 sb.s es-^s inodes count)) { 
ext2 error (inode-^i sb, “ext2 read inode', 
“bad inode number: %lu”, inode-^i ino); 
goto bad_inode; 
} 
block group = (inode->i_ino - 1) / EXT2 INODES PER GROUP(inode-^i sb): 
if (block group >= inode~>i sb->u. ext2 sb.s groups count) | 
ext2 error (inode->i sb, “ext2 read inode”, 
“group >= groups count ^); 
goto bad inode; 
] 
group desc = block group >> EXT2 DESC PER BLOCK BITS(inode-^i sb); 
desc = block group & (EXT2 DESC PER BLOCK(inode-^i sb) - 1); 
bh = inode-^i sb->u. ext2 sb.s group desc[group desc]; 
if (bh) 4 
ext2 error (inode—^i sb, “ext2 read inode", 
"Descriptor not loaded”); 
goto bad inode; 


} 


gdp = (struct ext2 group desc *) bh->b_data; 
/* 
* Figure out the offset within the block group inode table 
*/ 
offset = ((inode->i ino - 1) % EXT2 INODES PER GROUP (inode->i sb)) * 
EXT2 INODE SIZE(inode->i_sb) ; 
block = 1e32 to cpu(gdp[desc]. bg inode table) + 
(offset >> EXT2 BLOCK _SIZE_BITS (inode->i sb)); 
if (!(bh = bread (inode->i dev, block, inode-^i sb->s blocksize))) { 
ext2 error (inode->i sb, “ext2_rcad_inode ， 
“unable to read inode block - ^ 
“inode=%lu, block=%lu”, inode->i_ino, block); 
goto bad inode; 
} 
offset &= (EXT2 BLOCK _SIZE(inode~>i sb) - D; 
raw inode = (struct ext2 inode *) (bh->b data + offset); 


inode-^i mode = lel6 to cpu(raw inode-^i mode); 
inode->i uid = (uid t)lel6 to cpu(raw inode->i uid low); 
inode-^i gid = (gid t)lel6 to cpu(raw inode >i gid low); 
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1015 if(!(test_opt (inode->i sb, NO UTD32))) 1 
1016 inode-^i uid |= lel6 to cpu(raw inode—^i uid high) << 16; 
1017 inode~>i_gid |= lel6 to _cpu(raw_inode->i gid high) << 16; 
1018 } 
1019 inode->i_nlink = lel6_to_cpu(raw_inode->i_links_count) ; 
1020 inode->i_size = le32_to_cpu(raw_inode->i size); 
1021 inode->i_ atime = le32 to cpu(raw inode— i atime); 
1022 inode-^i ctime = le32 to cpu(raw inode-^i ctime); 
1023 inode-^i mtime = le32 to cpu(raw inode-^i mtime); 
1024 inode-5u.ext2 i.i dtime = le32 to cpu(raw inode-^i dtime); 
1025 /* We now have enough fields to check if the inode was active or not. 
1026 * This is needed because nfsd might try to access dead inodes 
1027 * the test is that same one that e2fsck uses 
1028 * NeilBrown 19990ct15 
1029 */ 
1030 if (inode->i nlink == 0 && 
(inode-^i mode == 0 i| inode-^u.ext2 i.i dtime))| 
1031 /* this inode is deleted */ 
1032 brelse (bh); 
1033 goto bad inode; 
1034 } 


1035 inode->i_ blksize = PAGE SIZE; 
/* This is the optimal IO size (for stat), not the fs block size */ 


1036 inode->i_blocks = le32 to cpul(raw_ inode->i blocks); 
1037 inode->i_version = +tevent: 
1038 inode->u. ext2 i.i flags = le32 to cpu(raw inode-^i flags); 
1039 inode-?u.ext2 i.i faddr = 1e32 to cpu(raw inode->i faddr); 
1040 inode-2u.ext2 i.i frag no = raw inode-^i frag; 
1041 inode-?u.ext2 i.i frag size = raw inode->i fsize; 
1042 inode~>u. ext2 i.i file acl = le32 to cpu(raw inode—^i file acl); 
1043 if (S ISDIR(inode-^i mode)) 
1044 inode->u, ext2 i.i dir acl = 1e32 to cpu(raw inode—i dir acl); 
1045 else { 
1046 inode-?u.ext2 i.i high size = 
le32 to cpu(raw inode— i size high); 
1047 inode->i size |= 
((__u64) 1e32_to_cpu(raw_inode— i size high))««32; 
1048 } 
1049 inode-^i generation = 1e32 to cpu(raw_inode->i generation); 
1050 inode->u. ext2 i.i block group = block group; 
1051 
1052 /* 
1053 * NOTE! The in-memory inode i_data array is in little-endian order 
1054 * even on big-endian machines: we do NOT byteswap the block numbers! 
1055 */ 
1056 for (block = 0; block < EXT2 N BLOCKS; block++) 
1057 inode-^u.ext2 i.i datalblock] = raw inode—^i block[block]: 
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在 Ext? 格式 的 磁盘 上， 有 些 索 引 节 点 是 有 特殊 用 途 的 ，include/linux/ext2_fs.h 中 有 这 些 节点 的 定 
X: 


55 /* 
56 * Special inodes numbers 
57 */ 


/* Bad blocks inode */ 

/* Root inode */ 

/* ACL inode */ 

/* ACL inode */ 

/* Boot loader inode */ 

/* Undelete directory inode */ 


58 #define EXT2 BAD_INO 

59 #define EXT2_ROOT_INO 

60 #define EXT2_ACL_IDX_INO 

61 Hdefine EXT2 ACL DATA INO 

62 define EXT2 BOOT LOADER INO 
63 "define EXT2 UNDEL DIR INO 


cO» n wh f 


这 些 索引 节点 是 为 系统 保留 的 ， 对 它们 的 访问 都 不 通过 目录 项 而 直接 通过 定义 的 节点 号 进行 。 其 
中 EXT2_ACL_IDX_INO #1 EXT2_ACL_DATA_INO 用 于 “访问 控制 表 ”(access control list)， 是 为 改 
善文 件 系 统 的 安全 性 而 设置 的 〈《 见 “访问 权限 和 文件 的 安全 性 ”一 节 )。 磁 盘 设 备 的 super block 结构 
中 提供 磁 捍 上 第 一 个 供 常 规 用 途 的 索引 节点 的 节点 号 以 友 索 引 节 点 的 总 数 ， 这 两 项 参数 被 用 于 对 市 点 
号 的 范围 检查 。 

从 概念 上 说 ，Ext2 格式 的 磁盘 设备 片 ， 除 引导 块 和 超级 块 以 外 ， 就 分 成 索引 节点 和 数据 两 部 分 。 
但 是 ， 出 于 访问 效率 的 考虑 ， 实际 上 把 整个 磁盘 (或 逻辑 磁盘 ， 即 “分 区 ” 先 划分 成 若 于 “记录 块 组 ” 
然后 再 将 每 个 记录 块 组 分 成 索引 节点 和 数据 遇 部 分 。 与 此 相应 ，ext2 磁盘 的 超级 块 中 则 提供 有 关 这 种 
划分 的 参数 ， 如 磁盘 上 有 和 多少 个 组 ， 每 个 组 中 有 多 少 个 记录 块 ， 有 多 少 个 索引 节点 等 等 ， 同 时 ， 每 个 
块 组 还 有 一 个 “组 描述 结构 ”， 也 可 以 通过 super block 结构 访问 〈 详 见 “ 文 件 系 统 的 安装 与 拆卸 。 
所 以 ， 先 要 根据 索引 节点 号 算出 该 节点 所 在 的 记录 块 组 ( 见 980 行 ) 以 及 在 节点 组 内 的 位 移 (999 行 )， 
然后 再 算出 节点 所 在 的 记录 块 号 (1001 行 )。 知 道 了 记录 块 号 以 后 ， 就 可 以 通过 设备 驱动 程序 bread 读 
入 该 记录 块 。 从 磁盘 读 入 的 索引 节点 为 ext2_inode 数据 结构 ， 读 者 已 经 看 到 过 它 的 定义 。 索 引 节 点 中 
的 信息 是 原始 的 ， 未 经 过 加 工 的 ， 所 以 代码 中 称 之 为 raw_inode， 相 比 之 下 内 存 中 ionde 结构 中 的 信息 
则 分 两 个 部 分 ， 一 部 分 是 属于 VFS 层 的 ， 适 用 十 所 有 的 文件 系统 ; 另 一 部 分 则 属于 其 体 的 文件 系统 ， 
这 就 是 那个 union， 因 具体 文件 系统 的 不 同 而 赋予 不 同 的 解释 。 对 Ext2 来 说 ， 这 部 分 数据 形成 一 个 
ext2_inode_info 结构 ， 这 是 在 include/linux/ext2, fs.h 中 定义 的 : 





19 /* 

20 * second extended file system inode data in memory 
21 */ 

22 struct ext2 inode info | 
23 u32 i data[I15]; 
24 u32 i flags; 

25 982 i faddr; 

26 __u8 i frag no; 
27 __ us i frag size; 
28 ...ul6 i osync; 

29 = u32 1 file acl; 
30 -= u32 idir acl; 
31 = u32 i dtime; 
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32 __u32 not used 1; /* FIX: not used/ 2.2 placeholder */ 
33 __us2 i block group; 

34 u32 i next alloc block; 

ab u32 i next alloc goal; 

36 _ u32 i prealloc block; 

3T . u32 i prealloc count; 

38 | u32 i high size; 

39 int i new inode:l; /* Is a freshly allocated inode */ 
40 ys 


结构 中 的 i data ] 是 一 块 很 重要 的 数据 。 对 于 有 存储 内 容 的 文件 《普通 文件 和 目录 文件 )， 这 里 存 
放 着 一 些 指 针 ， 直 接 或 间接 地 指向 伐 盘 上 存储 着 该 文件 内 容 的 所 有 记录 块 〈 详 见 “ 文 件 的 读 与 号” 一 
证 )。 所 谓 “ 索 引 节点 ” 即 因此 而 得 名 。 至 十 代表 着 符号 连接 的 节点 ， 则 并 没有 文件 内 容 (数据 )， 所 
以 正好 用 这 块 空间 来 存储 连接 日 标的 路 径 名 。 这 块 空间 的 大 小 是 05 个 32 位 整数 ， 即 60 NEA. BOR 
节点 名 最 长 可 达 255 个 字 节 ， 但 一 般 都 不 会 很 长 ， 将 作为 符号 连接 目标 的 路 径 名 限制 在 60 个 字 节 不 至 
于 引起 问题 。 代 码 中 通过 一 个 for 循环 将 这 15 个 整数 复制 人 到 inode 结构 的 union 中 。 

在 ext2_read_inode( ) 的 代码 中 继续 往 下 看 fs/ext2/inode.c): 


[path_walk( ) > real lookup( ) > ext2_lookup( ) > iget( ) > get_new_inode( ) > ext2_read_inode( )] 


1059 if (inode->i_ino == EXT2 ACL IDX INO | | 

1060 inode-^i ino == EXT2 ACL DATA INO) 

1061 /* Nothing to do */ ; 

1062 else if (S ISREG(inode-^i mode)) { 

1063 inode-5i op = &ext2 file inode operations; 

1064 inode-^i fop = &ext2 file operations; 

1065 inode-^i mapping-^a ops = &ext2 aops; 

1066 } else if (S ISDIR(inode-^i mode)) { 

1067 inode-^i op = &ext2 dir inode operations; 

1068 inode->i_fop = &ext2 dir operations; 

1069 } else if (S ISLNK(inode-^i mode)) { 

1070 if (!inode->i blocks) 

1071 inode-^i op = &ext2 fast symlink inode operations; 
1072 else { 

1073 inode-^i op = &page symlink inode operations; 
1074 inode-^»i mapping-^a ops = &ext2 aops; 

1075 } 

1076 } else 

1077 init special inode(inode, inode->i_mode, 

1078 le32 to cpu(raw inode->i block[0])); 
1079 brelse (bh); 

1080 inode-^?i attr flags = 0; 

1081 if (inode->u. ext2 i.i flags & EXT2 SYNC FL) { 

1082 inode-^i attr flags |= ATTR FLAG SYNCRONOUS; 
1083 inode-^i flags |= S SYNC; 

1084 j 
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1085 if (inode->u. ext2_i.i flags & EXT2 APPEND FL) [| 
1086 inode->i attr flags :~ ATTR FLAG APPEND; 
1087 inode’ >i flags |= S APPEND; 

1088 } 

1089 if (inode->u. ext2_i. i flags & EXT2 IMMUTABLE FL) { 
1090 inode->i_attr_flags |= ATTR FLAG IMMUTABLE; 
1091 inode->i_ flags i= S_IMMUTABLE; 

1092 } 

1093 if (inode->u. ext2 i.i flags & EXT2 NOATIME FL) | 
1094 inode-^i attr flags |= ATTR FLAG NOATIME; 
1095 inode-^i flags |= S NOATIME; 

1096 } 

1097 return; 

1098 

1099 bad_inode: 

1100 make bad inode(inode); 

1101 return; 

1102. ] 


接着 ， 就 是 根据 由 索引 节点 所 提供 的 信息 设置 inode 结构 中 的 inode operations 结构 指针 和 
file operations 结构 指针 ， 完 成 具体 文件 系统 与 虚拟 文件 系统 VES 之 间 的 连接 。 以 前 ， 我们 曾 把 这 二 者 
比喻 成 “接口 卡 ” 与 “总 线 ” 但 是 读者 要 注意 这 是 从 系统 结构 的 角度 而 言 的 ， 实 际 上 文件 系统 中 的 每 
个 节点 〈 上 月 录 或 文件 ) 都 有 从 VES 层 连 接 到 具体 文件 系统 的 问题 , 就 好 像 每 个 节点 都 有 着 这 么 一 条 “总 
线 ” 一 样 。 

目前 的 24 版 Linux 内 核 并 不 支持 ACL (Access Control List)， 所 以 代码 中 只 是 为 之 留 下 了 位 置 ， 
而 暂时 不 作 任何 处 理 。 除 此 以 外 ， 就 通过 检查 inode 结构 中 的 mode 字段 来 确定 该 节点 是否 常规 文件 

(S_ISREG)、 日 录 CS_ISDIR)、 符号 连接 (S_ISLNK ) 或 特殊 文件 而 作 不 同 的 设置 或 处 埋 。 例 如 对 (Ext2 

文件 系统 的 ) 日 录 节 点 就 将 op 和 i fop 4r 9 Uz ERE dB In] ext2 dir inode operations 和 
ext2_dir_operations 。 对 于 常规 文件 则 除 i op 和 i fop 以 外 还 有 另 一 个 指针 a_ops， 它 指向 一 个 
address space operations 数据 结构 ， 用 于 文件 到 内 存 空 间 的 映射 或 缓冲 。 对 特殊 文件 则 通过 
init_special_inode( ) 加 以 检查 和 处 理 ， 以 后 我 们 将 常常 回 过 来 看 这 个 函数 。 

在 找到 了 或 者 建立 了 所 需 的 inode 结构 以 后 ， 就 返回 旬 ext2_lookup( )， 在 那 早 还 要 通过 d_add( ) 
将 inode 结构 与 dentry Z& FATE E. £3], JE dentry 结构 挂 入 杂 痰 表 中 的 某 个 队列 ,这 里 的 d_add( ) 是 个 inline 
PAL, FE MF include/linux/dcache.h: 


[path_walk( ) > real lookup( ) > ext2 lookup( ) > d add( )] 


191 /站 六 

192 * d add - add dentry to hash queues 

193 * @entry: dentry to add 

194 * @inode: The inode to attach to this dentry 

195 * 

196 * This adds the entry to the hash queues and initializes @inodc. 
197 * The entry was actually filled in earlier during d alloc( ). 
198 */ 
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199 
200 
201 
202 
203 
204 


static __inline__ void d add(struct dentry * entry, struct inode * inode) 


{ 


} 


d_instantiate(entry, inode); 
d_rehash (entry) ; 


FRE d_instantiate( ) 使 dentry 结构 和 inode 结构 互相 拌 钩 ， 其 代码 在 fs/dcache.c 小， 


[path walk( ) > real lookup( ) > ext2 lookup( ) > d. add( ) > d. instantiate( )] 


648 
649 
650 
651 
652 
653 
654 
655 
656 
657 
658 
659 
660 
661 
662 
663 
664 
665 
666 
667 
668 
669 
670 


ek 


* 


* * * X X X HK X x X 


X 
w 


d instantiate ~ fill in inode information for a dentry 
@entry: dentry to complete 
@inode: inode to attach to this dentry 


Fill in inode information in the entry. 


This turns negative dentries into productive full members 
of society. 


NOTE! This assumes that the inode count has been incremented 
(or otherwise set) by the caller to indicate that it is now 
in use by the dcache. 


void d instantiate (struct dentry *entry, struct inode * inode) 


{ 


} 


spin  lock(&dcache lock); 
if (inode) 
list add(&entry-^d alias, &inode-^i dentry); 
entry->d_inode = inode; 
spin unlock(&dcache lock); 


网 个 数据 结构 之 问 的 联系 是 双向 的 。 一 方面 是 dentry 结构 中 的 指针 d_inode 指向 inode 结构 ， 这 是 
… 对 一 的 关系 ， 因 为 一 个 日 录 项 只 代表 着 个 文件 。 可 是 ， 反 过 来 就 木 -- 样 了 ， 同 一 个 文件 可 以 有 多 
个 不 同 的 义 件 名 或 路 径 (通过 系统 调用 link( ) 建 立 ,， 可 是 注意 与 “符号 连接 ”的 区 别 ， 那 是 由 symlink( ) 
ELIO, 所 以 从 inode 结构 到 dentry 结构 的 方向 可 以 是 一 对 多 的 关系 。 因 此 ，inode 结构 中 的 i. dentry 
是 个 队列 ，dentry 结构 通过 其 队列 头 部 d. alias 挂 入 相应 inode 结构 的 队列 中 。 


全 于 d rehash ) 则 将 dentry 结构 挂 入 杂凑 队列 ， 代 码 也 在 同一 文件 中 ; 


[path_walk( ) > real lookup( ) > ext2 lookup( ) > d_add( ) > d_rehash( )] 


847 
848 
849 


/** 


* 
* 


d rehash - add an entry back to the hash 
Gentry: dentry to add to the hash 
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850 * 

851 * Ádds a dentry to the hash according to its name. 
852 */ 

853 

854 void d rehash(struct dentry * entry) 

855 { 

856 struct list head *list = d_hash(entry->d parent, entry->d_name. hash) ; 
857 spin lock(&dcache lock): 

858 list add(&eniry-»d hash, list); 

859 spin unlock(&dcache lock); 

860 ) 


回 到 real lookup( ) 的 代码 ， 现 在 已 经 找到 了 或 者 建立 了 所 需 的 dentry 结构 ， 接 者 加 返回 到 
path_walk( ) 的 代码 中 《 见 fs/namei.c 中 的 497 47). 

当前 节点 的 dentry 结构 是 有 了 ， 但 是 这 个 节点 会 不 会 是 一 个 安装 点 昵 ?所 以 在 503 行 调用 
d_mountpoint( ) 加 以 检验 。 


[path_walk( ) > d mountpoint( )] 


259 static __inline |. int d_mountpoint (struct dentry *dentry) 
260 { 

261 return !list empty (&dentry—>d_vfsmnt) ; 

262 } 


tee eee A, REV AG__follow_down( ) 前 进 到 所 安装 设备 的 根 节点 。 这 两 个 函数 分 别 定 义 于 
include/linux/dcache.h 和 fs/namei.c 中 ， 读 者 可 以 参考 “文件 系统 的 安装 与 拆 戎 ” - 节 。 

最 后 ， 当 前 节点 会 不 会 只 是 代表 着 一 个 连接 昵 ? 对 这 种 情况 的 检验 取决 于 具体 的 文件 系统 。 有 洗 
文件 系统 根本 就 不 支持 连接 ， 那 就 己 经 最 终 找 到 了 所 需 的 节点 ， 此 时 要 调用 dput( ) 递 增 dentry 结构 中 
的 共享 计数 ， 因 为 此 后 path_walk( ) 不 再 使 用 这 个 数据 结构 了 。 如 果 具 体 的 文件 系统 支持 连接 ， 那 驳 般 
过 do_follow_link( ) 人 处 理 (fs/namei.c): 


[path_walk( ) > do follow. link( )] 


312 static inline int do follow link(struct dentry *dentry, 
struct nameidata *nd) 


Sie. 4 

314 int err; 

315 if (current link count >= 8) 
316 goto loop; 

317 current-»link count++; 

318 UPDATE ATIME(dentry-^d inode) ; 
319 err = dentry->d_inode—>i_op->follow_link(dentry, nd); 
320 current->link count ~; 

321 return err; 

322 loop: 

323 path release (nd) ; 
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324 return -ELOOP; 
225 7j 


对 连接 链 的 长 度 柴 有 个 上 限制, 否则 就 有 可 能 陷入 循环 , 这 个 上 限 是 8。 具体 对 连接 链 的 跟随 由 相应 
inode operations #444 P f] PARE? follow link 所 提供 的 函数 完成 。 就 Ext2 文件 系统 米 说 ， 这 个 函数 是 
ext2_follow_link()， 这 是 在 fs/ext2/symlink.c 中 定义 的 : 


35 struct inode operations ext2 fast symlink inode operations = { 


36 readlink: ext2 readlink, 
37 follow link: ext2 follow link, 
38 Hh 


PAX ext2_follow_link( PURSE E] :文件 中 : 
[path_walk( ) > do follow link( ) > ext2_follow_link( )] 


29 static int ext2_follow_link (struct dentry *dentry, struct nameidata *nd) 
30 { 


31 char *s = (char *)dentry— d inode—^u.ext2 i.i data; 
32 return vfs follow link(nd, s); 
33. | 


对 于 Ext2 文件 系统 ， 连 接 日 标的 路 径 名 在 ext2 inode info 结构 (inode 结构 中 的 union fj i. data 
字段 中 。 代 表 首 连接 的 节点 并 没有 文件 内 容 〈 数 据 )， 所 以 在 索引 节点 中 不 需要 存储 有 关 各 个 存储 区 
则 的 信息 , 而 这 些 空 间 正 好 可 以 用 来 存储 连接 目标 的 路 径 名 。 这 部 分 信息 在 前 | 有 的 ext2_read_inode( ) 
中 作为 ext2_inode_info 结构 的 “部 分 被 复制 到 inode 结构 里 而 的 union u 中 。 现 在 ， 就 以 此 为 月 标 调 
用 vfs_follow_link( ) 来 达到 县 的 。 

EX vfs_follow_link( ) 的 代码 在 fs/namei.c 中 。 值 得 注意 的 是 ， 这 里 从 ext2_follow_link( ) 中 对 
vfs_follow_link() 的 调用 意味 着 从 较 低 的 层次 上 《具体 的 Ext2 文件 系统 ) 回 到 了 更 高 的 vfs E. At 

Ale? 这 契 因 为 符号 连接 的 目标 有 可 能 在 另 一 个 格式 不 同 的 文件 系统 中 。 可 想 而 知 ， 存 
vfs follow link( ) 中 势必 又 要 调用 path_walk( ) 米 找到 代表 着 连接 对 象 的 dentry 结构 , 事实 也 正 是 这 样 


(fs/namei.c ): 


[path walk( ) > do_follow_link( ) > ext2_follow_link( ) > vfs_follow_link( )] 


1942 int vfs follow link(struct nameidata *nd, const char *link) 


1943 { 
1944 return — vfs follow link(nd, link); 
1945 ] 


FME pÆ Cfs/namei.c?: 
[path_walk( ) > do_follow_link( ) > ext2 follow link( )» vfs_follow_link( ) >__vfs_follow_link( )] 


1906 static inline int. 
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1907 
1908 
1909 
1910 
1911 
1912 
1913 
1914 
1915 
1916 
1917 
1918 
1919 
1920 
1921 
1922 
1923 
1924 
1925 
1926 
1927 
1928 
1929 
1930 
1931 
1932 
1933 
1934 
1935 
1936 
1937 
1938 
1939 
1940 


{ 


out: 
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__yfs_follow_link (struct nameidata *nd, const char *link) 


int res = 0; 

char *name; 

if (IS ERR(link)) 
goto fail; 


if (*link == '/') { 
path release (nd); 
if (Iwalk init root(link, nd)) 
/* weird | emul prefix( ) stuff did it */ 
goto out; 
} 
res = path walk(link, nd); 


if (current-»link count |} res || nd->last_type!=LAST_NORM) 
return res; 

/* 

* If it is an iterative symlinks resolution in open namei( ) we 

* have to copy the last component. And all that crap because of 

* bloody create( ) on broken symlinks. Furrfu... 

*/ 

name = X getname( ); 

if (TS ERR(name)) 
goto fail name; 

strcpy(name, nd->last. name); 

nd->last. name = name; 

return 0; 


fail name; 


link = name; 


fail: 


} 


path release (nd) ; 
return PTR ERR (link); 


至 此 ， 对 :个 中 间 节 点 的 搜索 沙 实 的 过 程 就 完成 了 。 叫 到 原先 path_walk( KIARI, ASL $33 47 


的 continue 语句 使 执行 又 回 到 439 行 的 for 循环 开始 处 ,继续 处 理 路 径 名 中 的 下 一 个 节点 。 芭 最 后 一 个 
节点 时 ， 就 会 转 到 标号 为 last_component 或 last_with_slashes Xb. 我 们 继续 在 Path_walk( ) 的 代码 中 往 下 


看 (namei.c): 


[path walk( )] 


536 
537 
538 
539 
540 


last with slashes: 


lookup flags j= LOOKUP FOLLOW | LOOKUP DIRECTORY; 


last component: 
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541 if (this. name[0] =-’.’) switch (this. len) | 
542 default: 

543 break; 

544 case 2: 

545 if (this. name[1] != '.') 

546 break; 

547 follow dotdot (nd); 

548 inode = nd->dentry—>d_inode; 

549 /* fallthrough */ 

900 case l1: 

551 goto return base; 

552 } 

553 if (nd->dentry->d op && nd->dentry->d op->d hash) { 
554 err = nd-^dentry-^d op~>d_ hash {nd->dentry, &this): 
555 if (err < 0) 

556 break; 

557 } 

558 dentry = cached lookup(nd—->dentry, &this, 0); 
559 if (!dentry) { 

560 dentry = real_lookup(nd->dentry, &this, 0); 
561 err = PTR_ERR(dentry) ; 

562 if (IS ERR(dentry)) 

563 break; 

564 j 

565 while (d mountpoint(dentry) && | follow down(&nd- mnt, &dentry)) 
566 ; 

567 inode = dentry->d_inode; 

568 if ((lookup_flags & LOOKUP_FOLLOW) 

569 && inode && inode->i op && inode->i op— follow link) { 
570 err - do follow link(dentry, nd); 

571 dput (dentry) ; 

572 if (err) 

573 goto return err; 

574 inode = nd->dentry-»d inode; 

575 } else { 

576 dput (nd->dentry) ; 

577 nd->dentry = dentry; 

578 } 

579 err = -ENOENT; 

580 if (!inode) 

581 goto no inode; 

582 if (lookup flags & LOOKUP DIRECTORY) | 

583 err = -ENOTDIR; 

584 if (linode-^i op || '!inode-^i op-^lookup) 
585 break ; 

586 } 

587 goto return base; 


588 no inode: 
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589 
590 
591 
592 
593 
594 
595 
596 
597 
598 
599 
600 
601 
602 
603 
604 
605 
606 
607 
608 
609 
610 
611 
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err = —ENOENT; 
if (lookup flags & (LOOKUP POSITIVE|LOOKUP DIRECTORY)) 
break; 
goto return base; 
lookup parent: 
nd->last = this; 
nd->last_type = LAST NORM; 
if (this.name[0] t=.) 
goto return base; 
if (this.len == 1) 
nd-»last type = LAST DOT; 
else if (this. lon == 2 && this.name[1] == '.') 
nd->last_ type = LAST DOTDOT; 
return base: 
return 0; 
out dput: 
dput (dentry) ; 
break; 
j 
path release (nd); 
return err: 
reiurn err; 
} 
路 径 名 的 末尾 有 个 “/” 学 符 ， 意 味 着 路 径 的 终点 是 个 日 录 ， 并 且 ， 如 果 这 个 节点 代表 着 一 个 连接 


就 一 定 要 前 进 到 所 连接 的 对 象 〈 也 是 个 月 录 )。 所 以 ， 在 这 种 情况 下 把 标志 位 LOOKUP_FOLLOW 和 
LOOKUP DIRECTORY 都 设 成 1。 

调用 参数 中 的 LOOKUP. PARENT 标志 位 1 表示 要 寻找 的 并 不 古 路 径 中 的 终点 ， 虱 是 它 的 上 一 层 ， 
所 以 转 到 593 行 的 lookup_parent 标号 处 ， 根 据 终点 的 节点 名 把 nameidata 结构 中 的 last type 设 管 成 
LAST_NORM、LAST_DOT 或 者 LAST_DOTDOT。 但 是 ，nameidata 结构 中 的 指针 dentry 此 时 仍 指 中 
上 一 层 节点 的 dentry 结构 。 

不 过 , 一 般 情 况 下 LOOKUP. PARENT 标志 位 都 是 0, 要 找 的 是 路 径 名 中 的 终点 ,将 代码 中 的 541 
581 行 与 473—509 行 作 比较 ， 就 可 以 发 岗 这 两 部 分 代码 几乎 是 “ 样 的 ， 所 不 同 的 只 是 : 


(1) 


(2) 


(3) 


对 于 中 间 节 点 调用 cached. lookup( ) 和 real. Jookup( ) 时 标志 LOOKUP. CONTINUE 为 1， 而 对 
终结 节点 调用 这 两 个 函数 时 这 个 标志 位 为 0。 但是， 这 个 标志 位 仅 在 所 属 文件 系统 《通过 其 
dentry_operations 结构 中 的 函数 指针 d_revalidate) 提供 目录 项 验证 函数 时 才 有 用 ，Ext2 文件 
系统 并 不 提供 这 个 函数 ， 并 不 对 所 找到 的 dentry 结构 加 以 验证 ， 所 以 这 个 因素 不 起 作用 。 
当中 间 节 点 代表 着 符号 连接 时 ， 对 do follew link( ) 的 调用 是 无 条 件 的 〈 只 要 文件 系统 的 
inode_operations 线 构 中 提供 了 相应 的 函数 )。 相 比 之 下 ， 当 终结 节点 代表 大 符 与 连接 时 ， 则 
仅 当 LOOKUP_FOLLOW 标志 位 为 1 时 才 调 用 这 个 函数 。 

如 果 … 个 中 间 节 点 的 dentry 结构 尚未 与 一 个 inode 结构 挂 上 钧 ， 则 搜索 器 无 法 继续 下 去 了 ， 
所 以 path_walk( ) 立 即 就 要 出 错 返 回 ， 出 错 代 码 为 _ ENOENT。 可 是 ， 对 于 终结 节点 就 不 同 了 ， 
在 有 些 情况 干 允 许 代表 常规 文件 (而 不 是 目录 ) 终结 节点 的 dentry 结构 没有 与 之 挂钩 的 inode 
结构 。 我 们 称 这 样 的 dentry 结构 为 “negative”， 反 之 则 为 “positive”。 有 :个 标志 位 称 为 


- 466 . 


第 5 前 文件 系统 
LOOKUP_POSITIVE， 就 是 表示 所 和 欲 寻找 的 节点 必须 具有 inode 结构 。 所 以 ， 对 于 终结 节点 ， 
当 不 存在 inode 结构 时 就 转向 584 行 的 标号 no_inode， 在 那里 根据 LOOKUP. POSITIVE 和 
LOOKUP DIRECTORY 两 个 标志 位 米 决 定 是 出 错 返 回 或 者 正常 返回 。 

4 最 后 ， 如 果 节 点 是 个 目录 ， 那 就 要 依靠 文件 系统 通过 其 inode_operations 结构 中 的 指针 

lookup 提供 的 函数 来 谈 入 这 层 目 录 ， 并 在 这 个 日 录 中 搜索 。 此 是 这 个 函数 指针 为 NULL, 
那么 搜索 也 就 不 能 延续 了 。 对 于 中 间 节 点 这 意味 着 搜索 失败 (531 行 )， 而 对 于 终结 节点 则 只 
有 在 所 此 求 的 是 个 月 录 CLOOKUP. DIRECTORY 标志 为 1) 时 才 意 味 着 失败 CU, 582~587 
行 )。 

从 path_walk( ) 返 回 时 ， 函 数 但 为 0 表示 搜索 成 功 ， 此 时 nameidata 结构 中 的 指针 dentry 指向 日 标 
节点 (不 一 定 是 终结 节点 ) 的 dentry 结构 ， 指 针 mnt 指向 且 标 节点 所 在 设备 的 安装 结构 。 间 时 ， 这 个 
结构 中 的 last type 表示 最 后 一 个 节点 的 类 型 ， 节 点 名 则 在 qstr 结构 last 中 。 如 果 失 败 的 话 ， 则 函数 值 
为 “… 负 的 出 错 代码 ， 而 nameidata 结构 中 则 提供 失败 的 节点 名 等 信息 。 

根据 给 定 路 径 名 找到 目标 节点 的 dentry 结构 (以 及 inode 结构 》 的 过 程 ， 涉 及 与 文件 系统 有 关 的 
儿 乎 所 有 数据 结构 以 及 这 些 数据 结构 间 的 联系 ， 摘 懂 了 这 个 过 程 就 对 文件 系统 有 了 基本 的 理解 。 回 时 ， 
path_init( ) 和 path_walk( )( 以 及 将 这 二 者 包装 在 一 起 的 user_walk( )) 又 是 在 各 种 与 文件 系统 有 关 的 系 
统 调用 中 最 广泛 使 用 的 函数 。 这 里 ， 我 们 略 举 数 例 ， 这 些 代 但 大 都 在 open.c 中 : 





340 asmlinkage long sys_chdir (const char * filename) 


341 { 
342 int error; 
343 struct nameidata nd; 
344 char *name; 
345 
346 name = getname (filename); 
347 error = PTR ERR (name); 
348 if (TS ERR(name)) 
349 goto out; 
350 
351 error = 0; 
352 if (path init (name, 
LOOKUP POSITIVE | LOOKUP_FOLLOW ! LOOKUP DIRECTORY, &nd)) 
353 error = path walk(name, &nd); 
354 putname (name) ; 
355 if (error) 
306 goto out; 
357 
358 error ~ permission(nd. dentry->d_inode, MAY EXEC) : 
359 if (error) 
360 goto dput and out; 
361 
362 set fs pwd(current-^fs, nd.mnt, nd.dentry): 
363 
364 dput and out: 
365 path release (&nd) ; 
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366 out: 
367 return error; 
368 } 


这 是 系统 调用 chdir( ) 的 代码 。 这 里 的 permission ) 检 查访 问 权 限 ， 读 者 可 参阅 下 一 节 “ 沪 问 权 限 与 
文件 安全 性 ” AX set_fs_pwd( ) 将 当前 进程 的 fs struct 结构 中 的 指针 pwd 和 pwdmnt 分 别 设置 成 由 
nameidata 中 提供 的 dentry 指针 和 vfsmount 指针 。 下 面 内 容 请 读者 峙 己 看 。 


468 asmlinkage long sys_chmod(const char * filename, mode_t mode) 
469 { 

470 struct nameidata nd; 

411 struct inode ** inode; 

412 int error; 

413 siruct lattr newattrs; 

474 

475 error = user path walk(filename, &nd); 

476 if (error) 

477 goto out; 

478 inode = nd. dentry~>d_inode; 

479 

480 error = —EROFS; 

481 if (IS RDONLY (inode)) 

482 goto dput and out; 

483 

484 error = —EPERM; 

485 if (IS IMMUTABLE(inode) |! IS APPEND(inode)) 
486 goto dput and out; 

487 

488 if (mode == (mode t) -1) 

489 mode = inode-^i mode; 

490 newattrs.ia mode = (mode & S IALLUGO) | (inode-^i mode & ^S IALLUGO) ; 
491 newattrs. ia valid = ATTR MODE | ATTR CTIME; 
492 error = notify change(nd.dentry, &newattrs) ; 
493 

494 dput and out: 

495 path release (&nd) ; 

A96 out: 

497 return error: 

498 } 


函数 notify_change( A/F JU, 2 3 Jes IY APL 13 o 


560 asmlinkage long sys_chown(const char * filename, uid_t user, gid_t group) 
561 { 

562 struct nameidata nd; 

o63 int error; 

564 


: 468 . 


第 5 章 ” 义 什 系统 
————————— HE nuo muc HT 


565 error - user path walk(filename, &nd); 

566 if (lerror) { 

567 error = chown_common(nd. dentry, user, group); 
568 path release (&nd) : 

569 } 

570 return error; 

51 ) 


38 asmlinkage long sys statfs(const char * path, struct statfs * buf) 


39 { 

40 struct nameidata nd; 

4] int error; 

42 

43 error - user path walk(path, &nd); 
44 if (lerror) { 

45 struct statfs tmp; 

46 error = vfs statfs(nd.dentry-^d inode—^i sb, &tmp); 
47 if (terror && copy to user(buf, &tmp, sizeof(struct statfs))) 
48 error = -EFAULT; 

49 path release (&nd) : 
50 } 

ol return error; 

ba ] 


53 访问 权限 与 文件 安全 性 


Unix 操作 系统 从 一 开始 就 在 其 文件 系统 中 引入 了 “文件 主 入 “访问 权限 ”等 概念 ， 并 在 此 基础 上 
实现 了 有 利于 提高 文件 安全 性 的 机 制 。 从 那 以 后 这 些 概 念 和 机 制 就 一 直 被 继承 下 来 并 进一步 得 到 改进 
和 完善 。 即 使 在 经 过 了 二 十 多 年 以 后 的 今天 ， 而 且 在 计算 机 系统 的 安全 性 已 经 成 为 一 个 突出 问题 的 情 
况 下 ， 这 一 套 机 制 仍然 不 失 其 先进 性 。 尽 管 还 存在 些 缺 点 和 需要 进一步 改进 的 地 方 ， 从 总 体 小 说 还 
是 坡 不 掩 瑜 。 与 当今 止 在 广泛 使 用 的 其 他 操作 系统 相 比 ， 可 以 说 Unix 的 安全 性 总 的 来 说 至 少 不 会 差 于 
这 些 系统 ; 如 果 考 虑 到 近年 来 从 Unix( 以 及 Linux, 下 则 ) 中 已 经 作出 的 改进 以 及 不 难 作出 的 进一步 改进 ， 
可 以 说 Unix 在 安全 性 方面 与 任何 其 他 系统 相 比 都 不 逊色 。 同 时 ， 从 当前 流行 的 其 他 操作 系统 路， 人 人 
不 难看 出 它们 受 Unix 影响 的 或 明 或 暗 的 痕迹 。 

Unix 文件 系统 的 访问 权限 是 一 种 二 维 结构 。 就 同一 个 用 户 来 说 ， 对 一 个 文件 的 访问 分 成 恋 、 写 和 
执行 三 种 方式 ， 因 而 形成 三 种 不 同 的 权限 ， 而 就 同一 种 访问 方式 来 说 ， 则 又 可 因 访问 者 的 号 份 属于 文 
件 主 、 文 件 主 的 同 组 人 以 及 其 他 用 户 〈 称 为 other) 而 分 别 凑 定 允 许 与 个 。 这 样 一 共 就 有 9 种 组 合 ， 可 
以 用 9 个 二 进 制 位 来 表示 。 早 期 的 Unix 是 在 16 位 结构 的 PDP-11 机 器 十 开发 出 米 的 ， 所 以 从 那 时 起 就 
“BAT 16 位 短 整 数 来 表示 一 个 文件 的 访问 “模式 ”， 而 将 其 中 的 低 9 位 用 于 访问 权限 。 当 时 比较 
流行 的 是 八进制 表示 法 ， 所 以 正好 将 这 9 位 表示 成 三 个 八进制 数位 ， 从 高 到 低 分 别 用 于 文件 主 〈u)、 
文件 主 的 同 组 人 《〈g) 以 及 其 他 〈o)， 而 每 个 八进制 数位 中 的 到 个 二 进 制 位 则 从 高 到 低 分 别 用 十 读 、 沁 
和 执行 三 种 权限 。 这 种 表示 方法 直 沿 用 至 今 ， 例 如 在 命令 “chomd 644 filel” PAY 644 就 是 这 样 
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二 个 8 进 制 位 。 此 外 ， 这 种 把 访问 者 区 分 为 文件 主 、 同 组 人 以 及 其 他 上 用户 ， 根 据 访问 者 的 身分 而 分 别 
决定 其 访问 权限 的 方案 称 为 “Discretionary Access Control”， 简 写 为 DAC。 

这 个 方案 的 实施 分 成 几 全 方面。 首先 ， 除 用 户 名 外 ， 每 个 用 户 还 被 授予 一 个 《在 系统 范 赎 内 ) TEE 
一 的 用 户 号 ud， 并 且 总 站 属于 其 一 个 用 户 组 ， 而 每 一 个 用 户 组 则 有 惟一 的 组 号 gid， 这 些 信 息 记录 在 
相当 于 一 个 小 数据 库 的 文件 /etc/passwd 中 。 其 次， 每 个 文件 的 索引 节点 中 记录 着 文件 十 的 uid, gid 以 
及 文件 访问 “模式 ” 还 有 ， 在 每 个 进程 的 task stuct 结构 中 相应 地 设置 了 uid 和 gid SFR. 得当 几 户 
通过 登录 进入 系统 并 创立 第 一 个 shell 进程 时 ， 训 从 /ete/passwd 中 根据 用 户 名 查 得 其 uid 和 gid,， 并 将 其 
设置 到 该 shell 进程 的 task. struct 结构 中 ， 从 此 以 后 便 代 代 相 传 。 最 后 ， 也 是 最 重要 的 是 ， 内 核 在 执行 
用 户 进程 访问 文件 的 请 求 时 要 对 比 进程 (和 用 户 ) 的 uid、gid 以 及 文件 的 访问 模式 ， 以 决定 该 进程 是 
否 对 此 文件 具有 所 更 求 的 访问 权限 。( 实 际 上 ， 进 程 的 task_struct 结构 中 还 有 euid, egid. suid. sgid, 
fsuid 以 及 fsgid 等 字段 ， 下 面 还 要 解释 )。 此 外 ，uid 为 0 的 用 户 为 “ 超 线 用 户 ” 而 超级 用 户 对 任何 文 
件 都 具有 与 文件 主 相同 的 权限 。 还 要 注意 ， 腹 户 名 与 用 户 号 并 不 是 一 对 一 的 关系 ， 多 个 用 户 ， 甚 全 所 
有 内 户 ， 都 可 以 对 应 到 同 -一 个 用 户 号 。 

由 于 超级 用 户 的 进程 对 任何 文件 都 具有 与 文件 主 相 同 的 权限 ， 实 际 上 辐 以 对 任何 文件 为 所 欲 为 ， 
这 就 带 来 了 危险 (这 里 还 没有 考虑 有 人 非法 取得 特权 用 户 权 限 所 | 起 的 问题 )。 所 以 ， 有 了 时候 需 要 通过 

-个 进程 的 用 户 号 和 组 号 来 改变 (限制) 其 访 问 权限 。 由 此 引申 出 了 进程 的 “真实 ”用 户 号 、“ 真 实 ” 
组 号 和 当前 的 “和 有效” 用 户 号 、“ 有 效 ” 组 号 的 概念 。 相 应 地 ,在 进程 的 task_stuct 结构 中 也 增设 了 euid 

(表示 “effective uid”) 和 egid 两 个 宁 段 ， 并 上 月 提供 了 setuid( )、seteuid( ) 等 系统 调用 。 男 一 方面 , 在 
改变 “有 效 ” 用 户 号 时 往往 需要 把 床 来 的 “有 有效” 用 户 号 暂时 保存 起 米 , 以 便 以 后 恢复 , 所 以 在 task, struct 
结构 中 义 增设 了 suid( 表 示 “saved uid”) 和 sgid 此 个 字段 ， 这 样 ， 人 在 task struct 结构 中 就 有 本 三 个 用 户 
号 和 三 个 组 号 ， 即 uid、euid、suid 以 及 gid、egid、sgid。 后 米 ， 人 在 开发 和 使 用 网 络 文件 系统 NFS 的 “ 守 
Jue" CHIARA BEAR) 的 过 程 中 又 认识 到 ， 在 网 络 坏 境 下 对 文件 的 访问 还 需要 “个 不 同 的 用 户 号 ,因此 
义 增加 一 个 fsuid 和 一 个 fsgid. W% fsuid 与 euid 相同 ， 而 fsgid 与 egid 相同 ， 但 是 在 特殊 的 情况 下 可 
以 不 同 。 这 里 要 指出 ,一 般 而 言 , 只 有 特权 用 户 以 及 具有 特权 用 户 权限 的 进程 ( 风 下 面 的 所 谓 “set_vid” 
文件 和 进程 》 才 能 通过 系统 调用 来 改变 其 用 户 号 和 组 号 ， 这 些 系统 调用 的 结果 都 是 使 进程 的 权限 更 受 
限制 ， 在 相反 的 方向 上 ， 则 最 多 是 恢复 旬 原 有 的 水 平 ， 所 以 … 个 非特 权 用 户 进程 是 不 能 通过 setuid( ) 
或 seteuid( ) 得 到 特权 出 户 的 权限 的 ， 这 一 点 跟 读 者 头脑 中 一 个 普通 用 户 可 以 通过 shell 命令 “su” 变 成 
特权 用 户 的 印象 可 能 不 … 致 。 这 里 面 的 原因 是 su 是 一 个 “set_uid" 可 执行 程序 ， 它 的 文件 主 是 root， 即 
特权 用 户 ， 所 以 当 普通 用 户 执行 su 的 过 程 中 就 自动 具有 了 特权 用 户 的 权限 ， 这 正 是 我 们 接 下 去 要 讨论 
的 。 

在 前 述 二 维 访问 权限 机 制 的 框架 中 ， 让 我 们 考虑 - :个 问题 ， 即 -个 普通 用 户 怎样 才 呈 以 改变 它 目 
刷 的 口令 。 我 们 知道 ， 有 闫 用户 的 名 称 、 用 户 号 、 组 号 、 口 令 等 信息 都 保存 在 文件 /etc/passwd 中 。 这 
个 文件 的 主人 只 能 是 超级 用 户 ， 因 为 只 有 超级 用 户 才 是 系统 中 最 核心 、 权 力 最 大 的 用 户 ， 通 常 就 是 系 
统 的 管理 员 。 除 超级 用 户外 ， 上 其 他 所 有 的 用 户 对 这 个 文件 部 不 应 该 有 “ 写 ” 权 ， 因 为 那样 的 话 每 个 用 
户 部 可 以 通过 修改 这 个 文件 、 将 自己 的 用 户 叶 改 成 0 而 安 成 特权 用 户 了 。 所 以 ， 除 文件 主 以 外 ， 所 有 
其 他 的 用 户 对 /etc/passwd 都 只 能 有 “ 读 ” 权 而 不 能 有 “ 写 ” 权 。 这 电 然 是 合理 的 ， 而 且 内 能 如 此 。 可 
足 ， 这 样 来， 一 个 普通 用 户 就 不 能 通过 运行 个 什么 程序 来 改变 白 己 的 口令 了 ， 因 为 收口 令 意 味 着 
改变 /etc/passwd HII AR. AS EPR RIK PTH? TRW Unix 采用 了 一 种 在 当时 看 来 很 巧妙 的 办 法 ， 
就 起 在 一 些 特殊 用 途 的 可 执行 文件 上 加 个 标记 ， 使 得 任何 用 户 在 执行 这 个 文件 程序 时 就 暂时 有 
了 与 该 文件 的 文件 主 〈 通 常 是 超级 用 户 ) 相同 的 权限 。 这 样 ， 只 要 把 用 米 改 变 口 令 的 程序 (Ybin/passwd) 
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加 上 这 种 标记 ， 普 通用 户 在 执 # “ 拉 大 旗 作 虎 皮 ” 町 时 有 了 特权 用 户 的 权限 ， 可 
以 改变 /etc/passwd 的 内 容 了 。 一 互 执行 完毕 ， 则 又 回 色 原来 的 权限 ， 又 是 普通 用 户 了 。 这 样 的 可 执行 
文件 ， 就 称 为 “set_uid” 文 件 ， 而 加 和 在 这 种 文件 上 的 标记 ， 则 是 在 文件 模式 中 的 .个 标志 位 S_ISUID。 
与 此 类 似 ， 还 有 一 个 标志 位 SISGID， ur S ISUID 标志 位 的 推广 。 有 时 候 人 们 称 S. ISUID 
标志 位 为 “s” 位 ， 因 为 在 用 命令 “1 便 日 录 时 拒 表 未 这 种 文件 对 文件 主 的 可 执行 权 的 字符 “x” 
变 成 了 “s”。 在 当时 ， em 很 有 效 ， 据 说 AT&T 还 为 此 申请 了 专利 。 可 是 ， 近 年 来 
却 发 现 这 种 “set_nid” 文 件 给 黑客 们 带 来 了 可 乘 之 机 ， 简 直 已 经 成 了 Unix( 以 及 Linux) 在 安全 性 方面 的 
JE d. Jet DS PESCA I] AR | 来 。 

除 这 两 个 标志 位 以 外 ， 早 期 Unix 还 为 可 执行 文件 定义 了 一 个 “ 粘 洁 ”(sticky) 标志 位 。 对 于 一 些 
频繁 运行 的 程序 , 可 以 把 这 个 标志 位 设 成 1， 使 得 内 核 在 这 个 程序 运行 完毕 后 尽 厅 能 将 其 映 象 保存 在 内 
存 中 不 予 释放 ， 这 样 下 次 需要 启动 这 个 程序 运行 时 就 不 需 杜 髓 从 磁盘 装 入 了 。 不 过 ,现在 的 Unix 和 
Linux 都 山 采 用 虚 存 管理 ， 所 以 这 个 标志 位 现在 已 经 没有 什么 意义 了 了。 

BTE UAE, 文件 的 模式 是 以 一 个 16 位 雹 符号 整数 表示 的 ， 其 中 9 位 已 经 用 于 对 三 种 不 同 出 户 的 访 
问 权限， 现在 又 用 去 了 3 位 ， 这 样 还 剩 下 4 位 ， 几 来 表示 文件 的 类 型 。 不 过 ， 由 十 只 翻 下 4 位 ， 要 为 
每 种 文件 类 型 都 分 本 一 个 标志 位 就 不 够 了 ， 所 以 表示 文件 类 型 的 这 4 位 起 编码 的 。 对 文件 类 型 和 上 述 
儿 个 标志 位 的 定义 在 include/linux/stat.h 中 ， 但 是 另 :个 文件 include/linux/sysv. fs.h 中 有 儿 行 注释 提供 





了 比较 详细 的 说 明 : 
255 /* The admissible values for i mode are listed in <linux/stat.h> : 
256 * &define S IFMT 00170000 mask for type 
251 * Bdefinec S IFREG 0100000 type = regular filc 
258 * #define S IFBLK 0060000 type = block device 
259 * H#define S IFDIR 0040000 type = directory 
260 * Hdefine S IFCIIR 0020000 type = character device 
261 * Hdefine S TFTFO 0010000 type - named pipe 
262 * Hdefine S ISUID 0004000 sei user id 
263 * Hdefine S ISGID 0002000 set group id 
264 * Hdefine S ISVTX 0001000 save swapped text even after use 
265 * Additionally for SystemV: 
266 * Bdefine S IFLNK 0120000 type = symbolic link 


注意 ， 这 时 的 数 宁 均 为 八进制 ， 


位 段 。 对 低 9 位 的 定义 则 为 ; 


32 #define S IRWXU 00700 
33 Hdefine S IRUSR 00400 
34 &define S TWUSR 00200 
35 Hdefine S IXULSR 00100 
36 

37 #define S_IRWXG 00070 
38 #define S IRGRP 00040 
39 &define S IWGRP 00020 
40 &deline S IXGRP 00010 
4] 


县 中 S IFMT 并 不 代表 一 种 文件 类 型 ， 


47H. 


Linux Ww Ra (上册 ) 


42 #define S IRWXO 00007 
43 #define S_IROTH 00004 
44 #define S IWOTH 00002 
45 #define S 1XOTH 00001 


这 个 16 位 的 文件 模式 存储 在 每 个 文件 的 索引 节点 中 ,而 每 个 进程 则 在 其 task. struct 结构 中 有 vid、 
euid 等 说 明 其 身份 的 信息 。 这 就 是 判定 一 个 进程 是 否 有 权 对 某 个 文件 进行 某 种 访问 的 基础 。 对 访问 权 
了 眼 的 判定 主要 是 出 函数 permission € ) 完成 的 ， 读 者 存 path_walk( ) 的 代码 中 已 经 看 到 ， 在 那里 的 for 
循环 中 对 路 径 中 的 每 :个 节点 调用 这 个 函数 ， 其 代码 在 fs/ext2/namei.c "P: 


183 int permission(struct inode * inode, int mask) 

184 { 

185 if (inode->i op && inode->i op—permission) | 
186 int retval; 

187 lock kernel ( ); 

188 retval = inode->i_op->permission(inode, mask); 
189 unlock kernel ( ); 

190 return retval; 

191 } 

192 return vfs permission(inode, mask); 

193 ] 


参数 mask ARAM BKM RI TEX. XF include/linux/fs.h H: 


63 define MAY EXEC 1 
64 #define MAY WRITE 2 
65  &define MAY READ 4 


对 十 一 般 的 文件 系统 就 分 成 这 么 二 种 方式 。 网 络 文 件 系 统 NFS 的 情况 特殊 ， 除 这 三 种 方式 以 外 还 
定义 了 MAY_TRUNC、MAY_LOCK 等 方式 以 及 这 些 方式 的 若干 组 合 ， 不 过 NFS 不 在 本 书 此 讨论 的 范 
围 内 。 

如 果 具 体 的 文件 系统 通过 其 inode_operations 结构 中 的 函数 指针 permisson 提供 了 特定 的 访问 权限 
判定 函数 ， 那 就 把 事情 交 给 它 了 ， 厂 则 就 执行 - AK vfs permission( )。 

就 Ext2 文件 系统 而 言 共有 三 个 inode_operations 结构 ， 即 ext2 file inode operations 、 
ext2_dir_inode_operations 以 及 ext2_fast_symjlimk_inode_operations， 根 据 其 体 inode 结构 所 代表 的 节 瓜 
性 质 而 在 ext2_read_inode( ) 中 将 其 i_op 指针 设置 成 指向 这 三 者 之 一 。 可 是 ， 这 二 个 结构 中 都 没有 提供 
专门 的 permisson BEC TT permission 为 NULL), 所 以 执行 vfs_permission( ), 其 代码 见 fs/namei.c. 


[permission( ) > vfs, permission( )] 


147 /* 

148 * permission( ) 

149 * 

150 x is used to check for read/write/exccule permissions on a filo. 
151 * We use “fsuid” for this, letting us set arbitrary permissions 
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152 * for filesystem access without changing the “normal” uids which 

153 * are used for other things.. 

154 */ 

155 int vfs permission(struct inode * inode, int mask) 

156 { 

157 int mode = inode->i_ mode; 

158 

159 if ((mask & S IWOTH) && IS RDONLY(inode) && 

160 (S ISREG(mode) || S ISDIR(mode) || S ISLNK (mode))) 

161 return -EROFS; /* Nobody gets write access to a read-only fs */ 
162 

163 if ((mask & S IWOTH) && IS IMMUTABLE (inode)) 

164 return -EACCES; /* Nobody gets write access to an immutable file */ 
165 

166 if (current->fsuid == inode->i uid) 

167 mode >>= 6; 

168 else if (in_group_p(inode->i gid)) 

169 mode >>= 3; 

170 

171 if (((mode & mask & S TRWXO) == mask) || capable(CAP DAC OVERRIDE)) 
172 return 0; 

173 

174 /* read and search access */ 

175 if ((mask == S IROTH) | | 

176 (S TSDIR(inode-^i mode) && !(mask & "(S IROTH | S IXOTH)))) 
177 if (capable (CAP DAC READ SEARCH) ) 

178 return 0; 

179 

180 return -EACCES; 

181  j 


这 里 用 到 的 一 些 宏 操作 分 别 定义 于 fs.h 和 stat.h: 
146 #define IS RDONLY(inode) (((inode)— i sb)&&((inode)-»i sb->s flags& MS RDONLY) 


24 #define S_ISLNK(m) (((m) & S IFMT) == S IFLNK) 
25 fdefine S ISREG(m (((m) & S IFMT) == S IFREG) 
26 #define S_ISDIR(m)  (((m) & S IFMT) == S IFDIR) 
27 #define S ISCHR(m (((m) & S ITMT) == S IFCHR) 
28 define S ISBLK(m) — (((m) & S IFMT) == S IFBLK) 
290 #define S ISFIFO(m) (((m) & S IFMT) == S IFIFO) 
30 . #define S ISSOCK(m) (((m & S IFMT) == S IFSOCK) 


IS RDONLY AAW AATEC RS, MERRE, JA “Rie” Ase. ARE 
上 ， 对 于 常规 文件 、 目 录 以 及 符号 连接 这 三 种 节点 都 不 能 写 。 但 是 ， 即 使 是 在 按 “ 只 读 ” 方 式 安 装 的 
文件 系统 中 ， 如 果 节 点 所 代表 的 是 FIFO 文件 、 插 口 等 特殊 文件 , 或 者 设备 文件 ( 块 设备 或 字符 设备 都 
一 样 )， 那 就 未 必 是 不 可 写 的 。 为 什么 呢 ? 因 为 对 这 些 “ 文 件 ” 的 写 访问 实际 上 个 会 或 者 不 ERB 
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节点 所 在 的 磁 向 土 去 。 
其 次 ，IS_IMMUTABLE 的 定义 为 : 


155 Hdefine IS_IMMUTABLE (inode) ((inode)->i_flags & S TMMUTABLE) 


在 较 新 的 Linux CRI Unix) 版 本 中 ， 除 访问 权限 外 又 给 每 个 义 件 加 上 了 一 些 属性 ,“ 不 可 史 改 ” 即 
是 其 中 之 一 。 这 些 属性 也 像 访问 权限 一 样 以 标志 位 的 形式 存储 在 文件 的 索引 节点 中 ， 但 是 不 像 访问 权 
限 那 样 区 分 文件 主 、 文 件 主 的 同 组 用 户 以 及 公众 ， 而 是 另 成 体系 ， 并 且 小 和 驾 丁 访问 权限 之 上 上。 而 且 ， 
一 旦 设置 了 这 些 属 性 , 即使 是 特权 用 户 也 不 能 在 系统 还 在 正常 的 多 用 户 环 境 下 运行 时 将 这 些 属性 去 除 。 
这 样 ， 就 算 有 黑客 偷 到 了 特权 用 户 的 口令 ,， 对 这 些 文件 也 就 磷 能 为 力 了 。 如 果 一 个 文件 被 设置 成 了 “不 
nE”, 那么 即使 是 超级 用 户 通过 chmod ) 把 文件 的 访问 模式 设置 成 “可 写 ” 也 无 济 于 事 。 显 然 ， 这 
是 因 安 全 性 考虑 而 作 的 改进 和 增强 。 表 示 这 些 属性 的 标志 位 定义 于 include/linux/ext2_fs.h: 


183 [* 

184 * Inode flags 

185 */ 

186 Hdefine EXT2 SECRM FL 0x00000001 /* Secure deletion */ 

187 #define EXT2 UNRM FL 0x00000002 /* Undelete */ 

188 #define EXT2 COMPR FL 0x00000004 /* Compress file */ 

189 itdefine EXT2 SYNC FL 0x00000008 /* Synchronous updates */ 
190 define EXT2 IMMUTABLE FL 0x00000010 /* Immutable file */ 

191 define EXT2 APPEND FI. 0x00000020 /x writes to file may only append */ 
192 H#define EXT2 NODUMP FL 0x00000040 /* do not dump file */ 

193 Hdefine EXT2 NOATIME FL 0x00000080 /* do not update atime */ 

194 /* Reserved for compression usage... */ 

195 #define EXT2 DIRTY FL 0x00000100 

196 #define EXT2 COMPRBLK FL 0x00000200 /* One or more compressed clusters */ 
197 #define EXT2 NOCOMP FL 0x00000400 /* Don't compress */ 

198 Hdefine EXT2 ECOMPR [T 0x00000800 /* Compression error */ 

199 /* End compression flags —- maybe not all used */ 

200 #define EXT2 BTREE FL 0x00001000 /* btree format dir */ 

201 Hdefine EXT2 RESERVED FL 0x80000000 /* reserved for ext2 lib */ 
202 


203 define EXT2 FL USER VISIBLE 0x00001FFF /* User visible flags */ 
204 tdefine EXT2 FL USER MODIFIABLE 0x000000FF /* User modifiable flags */ 
205 


Hee p Lt He HB YER Cn. Se] fx m RRO eG X TE. plam. 
EXT2. APPEND FL 龙 示 对 文件 的 写 访问 只 能 添加 在 文件 的 末尾 ,而 不 能 改变 文件 中 已 有 的 内 容 。 读者 
会 问 ， 人 在 打开 文件 时 不 是 就 有 个 “添加 ”模式 吗 ? 为 什么 这 里 又 要 来 A "SIR" RATEN? 答案 很 简 
音 ， 打 开 文 件 时 的 “ 漆 加 ”模式 是 用 户 进 程 “ 自 愿 ” 的 ， 测 文件 的 “添加 ”属性 却 是 强制 的 。 

FFL, Ri inode 结构 中 的 flag 里 面 的 S IMMUTABLE 标志 为 !， 惠 就 剥夺 了 所 有 用 户 对 这 个 
文件 的 “ 写 ” 访 问 权 《〈 见 163 行 )， 而 与 交 件 所 设 管 的 访问 权限 以 及 访问 者 的 身份 无 天 。 

还 有 个 属性 是 EXT2_NODUMP_FL， 意 图 是 使 可 执行 文件 在 运行 中 访问 内 存 出 错 ( 超 肉 访 问 等 ) 
时 不 要 生成 “dump” 文 件 。 从 Unix 的 后期 版 本 开始 可 执行 文件 在 运行 过 程 中 国 访问 内 存 侵权 而 出 错 
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时 部 会 把 当时 的 内 存 映 象 卸 载 到 一 个 磁盘 文件 中 〔〈 名 为 “core”， 因 为 早期 的 计算 机 采用 磁 必 存储 器 )， 
使 程序 员 可 以 使 用 调试 工 共 (如 gdb 等 ) 来 重建 起 发 生 问 题 时 的 场景 ， 这 对 寸 软件 的 维护 显然 是 有 好 
处 的 。 可 是 ， 在 实践 中 却 发 现 ， 这 也 给 怀 有 恶意 的 湿 客 们 提供 了 可 乘 之 机 。 为 了 在 某 些 情况 下 不 让 产 
+ dump 文件 ， 在 task struct 结构 中 增设 了 个 标志 位 dumpable， 人 在 某 些 情况 下 《例如 通过 seteuid( ) 
设置 了 有 效用 户 号 ) 就 将 这 个 标志 位 清 0。 同 时 ， 又 设置 了 个 系统 调用 prctl( )， 其 用 途 之 一 就 是 将 
dumpable 标志 设置 成 1 或 0， 可 是 这 还 是 不 能 解决 防止 恶意 攻击 的 问题 。 和 在 一 些 特 铁 的 应 用 坏 境 《〈 如 
银行 ) 中 ， 对 一 些 特 殊 的 可 执行 程序 ， 需 此 完全 杜绝 其 产 牛 dump 文件 的 可 能 性 ， 这 就 是 设置 
EXT2 NODUMP FL 属性 及 标 忘 位 的 意图 。 此 外 ， 对 于 其 些 特 殊 文件 ， 不 能 像 对 一 般 的 文件 那样 每 次 
访问 后 就 要 打下 时 间 印 记 ， 标 志 位 EXT2_NOATIME FL 就 是 为 此 自 的 而 设置 的 。 总 之 ， 对 丁 传统 的 
Unix 文件 系统 而 主 ， 这 些 属性 (标志 位 都 是 “体制 外 ”的 ， 所 以 不 能 纳入 原先 的 框架 中 ， 而 其 中 有 
一 些 是 为 增强 文件 系统 的 安全 性 而 设置 的 。 

加 到 permission( ) 的 代码 中 ， 下 面 束 是 访问 权限 的 比 对 了 。 这 里 的 mode 2242 B inode 结构 中 的 文 
件 访 问 模 式 , 即 前 述 的 16 位 无 符号 短 整 数 ; mask 则 为 所 要 求 的 访 门 方式 , 即 MAY. EXEC. MAY. WRITE 
4 MAY READ， 实 际 上 只 用 了 最 低 3 位 。 前 面 说 过 ， 当 前 进程 的 fsuid 是 专用 于 文件 访问 目的 的 有 效 
uid, XE LEER evid 相同 ， 但 是 在 使 用 网 络 文件 系统 时 可 能 会 不 同 。 如 果 当 前 进程 的 fsuid 与 文件 
ÉJ ud 相同 ， 那 么 要 比 对 的 是 mode 中 用 丁 文件 主 的 访问 权限 ， 所 以 把 mode 右 移 6 位， 把 用 于 文件 
主 的 三 个 标志 位 移 到 最 低 的 3 位 中 。 如 昌 当 临 进程 的 fsuid Es3cfEE R3 uid 不 同 ， 那 就 要 检查 一 下 当前 
进程 所 属 用 户 的 组 号 与 文件 让 的 纽 号 是 合 相 符 , AAA, 则 适 几 同 组 人 的 访问 权限 , 所 以 要 把 mode 
HE 3 位 。 淹 定 是 否 同 组 比 判定 是 寿 义 件 主旨 复杂 - 些 ， 超 遂 过 “个 函数 in_group_p( ) 米 完成 的 ， 其 
代码 在 kernel/sys.c 中 : 


[permission( ) > vfs permission( ) > in_group_p( )] 


939 /* 

940 * Check whether we're fsgid/egid or in the supplemental group.. 
941 */ 

942 int in group p (gid t grp) 

9433 d 

944 int retval = 1; 

945 if (grp != current >fsgid) 

946 retval = supplemental group member (grp) ; 

947 return retval; 

948} 


如 采 进 程 的 fsgid GICHEERA SHH, MRT o nl BN ix A IB] 3e ul ESE LAL AAT 
的 ,， 因为 一 个 用 户 《 从 而 一 个 进程 ) BTL AAR, EN IBY ERE” OB — FP sched.h 
中 对 task. struct 的 定义 ， 在 task. struct 结构 中 有 个 数组 groups[ ]， 其 大 小 为 常数 NGROUPS， 该 常数 在 
include/asm_i386/param.h 定义 为 32。 当 然 ， :个 用 户 (进程 ) 术 必 会 那么 “社会 化 ”， 所 以 在 task. struct 
中 还 有 个 计数 器 ngroups。 与 此 相应 ， 还 提供 了 系统 调用 get_groups( ) 和 set groups( )。( 内 有 得 到 授权 
METET H EA set_groups( ))。 所 以 ， 如 果 fsgid 与 文件 主 的 组 号 不 同 ， 就 要 进一步 拿 这 个 数组 中 的 其 他 
“候补 ”组 与 女 文 件 主 的 给 号 相 比 ， 孙 数 supplemental_group_member( ) 的 代码 也 在 sys.c 中 : 


[permission( ) > vfs permission( ) > In_group_p( ) > supplemental_group_member( )] 
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923 static int supplemental group member (gid t grp) 
924 { 

925 int 1 = current-?ngroups; 

926 

927 if (i) | 

928 gid t *groups = current-—>groups; 
929 do { 

930 if (*groups == grp) 

931 return 1; 

932 groupstt; 

933 poem 

934 ) while (i); 

935 } 

936 return 0; 

937  ] 


最 后 ， 如 果 当 前 进程 确实 不 属于 文件 主 的 同 组 人 ， 那 就 是 属于 “其 他 ”用 户 了 。 此 时 mode 不 需 
要 移 位 ， 因 为 要 比 对 的 3 位 已 经 在 最 低 的 位 置 上 了 。 

常数 S_IRWXO 的 值 为 7, 所 以 比 对 的 是 此 时 mode 中 最 低 的 3 位 。 比 对 的 结果 相符 时 , permission( ) 
JR] 0， 可 是 不 符 呢 ?一 般 而 言 就 失败 了 。 但 是 还 有 例外 。 首 先 ， 如 果 当 前 进程 得 到 了 授权 ， 人 允许 其 
CAP_DAC_OVERRIDE, 即 可 以 凌驾 于 文件 系统 的 访问 权限 控制 机 制 DAC 之 上 , 则 基本 上 不 受 其 限制 。 
Ait, HUI 159 行 和 163 行 中 检 但 的 两 种 情况 人 不 在 内 。 实 际 上 ，1S_IMMUTABLE 要 有 为 一 种 授权 

(CAP_LINUX_IMMUTABLE) 的 进程 才能 设置 。 所 以 ， 这 种 进程 就 好 像 是 捧 着 “尚方 案 剑 ”的 钦差 

大 臣 ， 这 才 是 真正 意义 上 的 “超级 用 户 ”。 可 惜 “ 超 级 用 户 ” 和 “特权 用 户 ” 这 两 个 词 都 忆 经 用 于 uid 
为 0 的 用 户 ， 所 以 我 们 在 书本 中 称 此 类 进程 为 “授权 进程 ”。 等 下 我 们 还 要 同 到 这 个 话题 上 米 。 

除了 拥有 CAP DAC OVERRIDE 授权 的 进程 以 外 ， 还 有 一 种 特 冻 情况 ， 那 就 是 另 - :种 授权 
CAP_DAC_READ_SEARCH， 拥 有 这 种 特权 的 进程 可 以 读 任何 文件 ， 并 且 可 以 搜索 任何 日 录 节 点 ， 所 
以 ， 代 码 中 的 177 行 检查 所 要 求 的 是 否 读 访问 或 者 对 日 录 节 点 的 搜索 。 这 里 要 提醒 读者 ， 搜 索 日 隶 市 
点 时 所 时 求 的 访问 方式 为 “执行 ”而 不 是 “ 读 ” 所 以 在 新 一 节 里 path_walk( ) 的 for FFA PET Box 
节点 调用 permission( ) 时 的 参数 为 MAY_EXEC， 而 不 是 MAY_READ。 

如 前 所 述 , 用 户 进程 在 一 定 条 件 下 可 以 通过 系统 调用 来 设置 其 用 户 号 ,有关 的 系统 调用 有 setuid( )、 
setfsuid( )、seteuid( ) 以 及 setreuid( )。 其 中 setuid( ) 是 标准 的 “设置 用 户 号 ”调用 ， 内 核 员 与 之 相应 的 函 
数 为 sys_setuid( )， 其 代码 在 sys.c F: 


548 /* 

549 * setuid( ) is implemented like SysV with SAVED IDS 

550 * 

551 * Note that SAVED ID's is deficient in that a setuid root program 

552 * like sendmail, for example, cannot set its uid to be a normal 

553 * user and then switch back, because if you’ re root, setuid( ) sets 

554 * the saved uid too. If you don t like this, blame the bright people 
555 * in the POSIX committee and/or USG. Note that the BSD-style setreuid( ) 
556 * will allow a root program to temporarily drop privileges and be able to 
557 * regain them by swapping the real and offective uid. 
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558 */ 
559 asmlinkage long sys setuid(uid t uid) 


560 { 

561 int old euid = current->euid: 

562 int old ruid, old suid, new ruid; 

563 

564 old ruid = new ruid = current-^uid; 

565 old suid = current—>suid; 

566 if (capable(CAP_SETUID)) { 

567 if (uid !- old ruid && set user(uid) < 0) 
568 return -EAGAIN; 

569 current-?suid = uid; 

570 | else if ((uid != current->uid) && (uid != current—>suid)) 
571 return -EPERM; 

572 

573 current—>fsuid = current->euid = uid; 

574 

575 if (old euid != uid) 

576 current->dumpable = 0; 

577 

578 if (!issecure(SECURE NO SETUID FIXUP)) { 

579 cap emulate setxuid(old ruid, old euid, old suid); 
580 } 

581 

582 return 0: 

583 } 


般 超 级 用 户 ( 其 euid 为 0) 都 具有 CAP_SETUID 授权 ,此 时 在 569 47 #0 573 行 把 当前 进程 的 euid、 
suid, fsuid 部 设立 成 新 的 uid。 注 意 ， 这 里 把 suid 也 设置 成 新 的 uid， 实 在 是 个 败笔 ， 因 为 task_struct 
结构 中 的 suid 本 意 在 于 “save uid”, BITE TH PCIE evid 时 可 以 记 住 原 来 的 euid 是 什么 ， 以 便 以 后 恢复 。 
MSH suid 也 设置 成 了 新 的 “uid”， 就 失去 了 它 的 作用 ， 并 且 用 户 号 改变 的 历史 也 被 一 笔 勾 销 ， 以 
后 无 法 恢复 成 超级 用 户 了 。 代 码 的 原作 者 在 函数 前 而 加 了 注 ， 也 谈 到 了 这 个 问题 。 可 是 ， 超 级 用 户 在 
滑 用 setuid( ) 时 把 其 suid 也 设置 成 新 的 uid， 这 是 在 POSIX 标准 中 规定 了 的 ， 明 知 不 合理 也 只 能 如 此 。 
正 因为 这 样 ， 在 BSD〔 以 及 Linux) PRAEH T RAMA seteuid( ) 和 setreuid( ) 来 避免 这 个 缺点 。 相 
比 之 人 下， 对 于 不 具备 CAP_SETUID 授权 的 进程 ， 则 只 设置 当前 进程 的 euid All fsuid， 但 是 只 有 在 新 的 
uid she MERE AS uid 或 者 suid 时 才能 进行 。 

每 当 进 程 改变 其 euid 时 ， 其 task. struct 结构 中 的 标志 位 dumpable 就 被 清 0， 这 样 进 程 在 访问 出 错 
时 就 不 会 产 牛 dump 文件 了 。 

如 果 当 前 进程 共有 CAP_SETUID 授权 ， 并 且 新 的 uid 又 与 原来 的 真实 用 户 号 不 同 ， 则 连 进程 的 页 
FAP SEDES, XEN set_user( ) 实 施 的 (kernel/sys.c): 


[sys setuid( ) > set_user( )] 


4660 static int set user(uid t new ruid) 
467 { 
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468 ^ struct user struct *new user, *old user; 

469 

470 /* What if a process setreuid( )' s and this brings the 
471 * new uid over his NPROC rlimit? We can check this now 
472 * cheaply with the new uid cache, so if it matters 
473 * we should be checking for it.  -DaveM 

474 */ 

415 new user = alloc uid(new ruid); 

416 if (!new user) 

477 return -EAGAIN; 

478 old user = current-2user; 

479 atomic_dec (&old_user->processes) ; 

480 atomic inc(&new user->processes) ; 

481 

482 current—>uid = new ruid; 

483 current->user = new user; 

484 free uid(old user); 

485 return 0; 

486  ] 


我 们 在 “进程 ”一 章 中 讲 到 过 ， 内 核 中 有 个 杂凑 表 uidhash， 各 个 进程 的 task_struct 结构 按 其 用 户 
号 uid 的 杂凑 值 挂 入 该 杂凑 表 的 某 个 队列 中 。 这 样 ， 根 据 给 定 的 uid 就 以 很 快 找到 所 有 属 工 该 用 户 的 
进程 。 同 时 ， 在 task, struct 结构 中 有 个 指针 user， 指 向 一 个 user. struct 数据 结构 ， 这 个 数据 结构 就 好 像 
task struct 结构 与 杂凑 队列 之 间 的 连接 件 ， 进 程 的 task struct 结构 就 是 通过 它 挂 入 杂 竣 队列 。 现 在 , 既 
然 当 前 进程 要 “改换 门庭 ”了 ， 就 要 从 原来 的 杂凑 队列 中 脱 链 并 将 其 user_sturct 结 移 释放 ， 然后 另行 
分 配 一 个 user_strct 结构 并 挂 入 另 - -个 队列 。 函 数 free_uid( ) 的 代码 也 在 kernel/fork.c 中 : 


[sys setuid( ) > set user( ) > free uid( )] 


76 void free uid(struct user struct *up) 


wm 1 

78 if (up && atomic dec and lock(&up-? count, &uidhash lock)) | 
79 uid hash remove (up) ; 

80 kmem cache free(uid cachep, up): 

81 spin unlock (&uidhash lock); 

82 } 

83. ] 


函数 alloc_uid( ) 的 作用 与 free, uid( JERR, BAL TL P BTE IRAN T -o 

我 们 在 前 面 讲 过 ， 超 级 用 户 的 进程 通常 是 得 到 某 些 授权 的 。 相 比 之 下 ， 一 般 用 户 则 得 不 到 任何 报 
BL, 它 所 有 的 只 是 文件 系统 的 访问 权限 机 制 DAC 所 赋予 的 基本 权利 , 而 且 这 些 基本 权利 也 有 可 能 得 个 
到 汽 现 ， 因 为 文件 的 属性 如 IS_IMMUTABLE 等 是 凌驾 于 DAC 之 上 的 。 可 想 而 知 ， 当 一 个 超级 用 户 志 
程 改变 其 uid 至 某 一 普通 用 户 时 ， 其 授权 也 上 娄 发 生 ” 些 变化 。 

对 进程 的 授权 是 独立 于 文件 系 统 的 访问 权限 控制 以 外 ， 并 且 凌 驾 于 其 上 的 机 制 。 为 此 日 的 在 
task. struct 结构 中 设置 了 cap_effctive.cap_inheritable 和 cap. permitted 三 个 字段, 其 类 型 为 kernel. cap. t 
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日 前 实际 上 是 32 位 无 符号 整数 。 每 一 种 授权 (capability) 都 用 一 个 标志 位 来 表示 ， 且 前 共 定 义 了 29 
种 授权 ， 所 以 32 位 无 符号 整数 就 够 用 了 。 这 些 标 志 位 (和 授权 ) 的 定义 在 include/linux/capability.h 中 : 


65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
77 
18 
79 
80 
8l 
82 
83 
84 
85 
86 
87 
88 
89 
90 
9] 
92 
93 
94 
95 
96 
97 
98 
99 
100 
101 
102 
103 
104 
105 
106 
107 
108 


fk 
** POSIX-draft defined capabilities. 
**/ 


/* In a system with the [_POSIX CHOWN RESTRICTED] option defined, this 
overrides the restriction of changing file ownership and group 
ownership. */ 


#define CAP CHOWN 0 


/* Override all DAC access, including ACL execute access if 
[ POSIX_ACL] is defined. Excluding DAC access covered by 
CAP LINUX IMMUTABLE. */ 


#define CAP DAC OVERRIDE I 


/* Overrides all DAC restrictions regarding read and search on files 
and directories, including ACL restrictions if [ POSIX ACL] is 
defined. Excluding DAC access covered by CAP LINUX IMMUTABLE. */ 


&define CAP DAC READ SEARCH 2 


/* Overrides all restrictions about allowed operations on files, where 
file owner ID must be equal to the user ID, except where CAP FSETID 
is applicable. It doesn't override MAC and DAC restrictions. */ 


#define CAP FOWNER 3 


/* Overrides the following restrictions that the effective user ID 
shall match the file owner ID when setting the S ISUID and S ISGID 
bits on that file; that the effective group ID (or one of the 
supplementary group IDs) shall match the file owner ID when setting 
the S ISGID bit on that file; that the S ISUID and S ISGID bits are 
cleared on successful return from chown(2) (not implemented). */ 


define CAP FSETID 4 

/* Used to decide between falling back on the old suser( ) or fsuser( ). */ 
define CAP FS MASK Oxlf 

/* Overrides the restriction that the real or effective user ID of a 


process sending a signal must match the real or effective user ID 
of the process receiving the signal. */ 
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109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
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"define CAP KILL 9 


/* Allows setgid(2) manipulation */ 
/* Allows setgroups(2) */ 
/* Allows forged gids on socket credentials passing. */ 


#define CAP SETGID 6 


/* Allows set*uid(2) manipulation (including fsuid). */ 
/* Allows forged pids on socket credentials passing. */ 


#define CAP SETUID 了 
[P 
** Linux-specific capabilities 
xx/ 


/* Transfer any capability in your permitted set to any pid, 
remove any capability in your permitted set from any pid */ 


define CAP SETPCAP 8 


/* Allow modification of S IMMUTABLE and S APPEND file attributos */ 


#define CAP LINUX IMMUTABLE 9 


/* Allows binding to TCP/UDP sockets below 1024 */ 
/* Allows binding to ATM VCIs below 32 */ 


define CAP NET BIND SERVICE 10 


/* Allow broadcasting, listen to multicast */ 


define CAP NET BROADCAST 11 


/* 
/* 
/* 
f* 
/ 米 


/* 
/* 
/* 
/* 
/* 
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Allow 
Allow 
Allow 
Allow 
Allow 


interface configuration */ 

administration of IP firewall, masquerading and accounting */ 
setting debug option on sockets */ 

modification of routing tables */ 

setting arbitrary process / process group ownership on 


sockets */ 


Allow 
Allow 
Allow 
Allow 
Allow 


binding to any address for transparent proxying */ 
setting TOS (type of service) */ 

setting promiscuous mode */ 

clearing driver statistics */ 

multicasting */ 


157 
158 
159 
160 
161 
162 
163 
164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 
186 
187 
188 
189 
190 
191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 
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/* Allow read/write of device-specific registers */ 
/* Allow activation of ATM control sockets */ 


#define CAP_NET_ADMIN 12 


/* Allow use of RAW sockets */ 
/* Allow use of PACKET sockets */ 


8define CAP NET RAW 13 

/* Allow locking of shared memory segments */ 

/* Allow mlock and mlockall (which doesn't really have anything to do 
with IPC) */ 

#define CAP IPC LOCK 14 

/* Override IPC ownership checks */ 

#define CAP IPC OWNER 15 

/* Insert and remove kernel modules - modify kernel without limit */ 

/* Modify cap bset */ 


#define CAP SYS MODULE 16 


/* Allow ioperm/iopl access */ 
/* Allow sending USB messages to any device via /proc/bus/usb */ 


#define CAP SYS RAWIO 17 

/* Allow use of chroot( ) */ 

Hdefine CAP SYS CHROOT 18 

/* Allow ptrace( ) of any process */ 

#define CAP SYS PTRACE 19 

/* Allow configuration of process accounting */ 

#define CAP SYS PACCT 20 

/* Allow configuration of the secure attention key */ 

/* Allow administration of the random device */ 

/* Allow examination and configuration of disk quotas */ 
/* Allow configuring the kernel's syslog (printk behaviour) */ 
/* Allow setting the domainname */ 


/* Allow setting the hostname */ 
/* Allow calling bdflush( ) */ 
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205 
206 
207 
208 
209 
210 
211 
212 
213 
214 
215 
216 
217 
218 
219 
220 
221 
222 
223 
224 
225 
226 
227 
228 
229 
230 
231 
232 
233 
234 
235 
236 
237 
238 
239 
240 
24] 
242 
243 
244 
245 
246 
241 
248 
249 
250 
251 
252 
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/* Allow mount( ) and umount( ), setting up new smb connection */ 
/* Allow some autofs root ioctls */ 

/* Allow nfsservctl */ 

/* Allow VM86 REQUEST IRQ */ 

/* Allow to read/write pci config on alpha */ 

/* Allow irix prctl on mips (setstacksize) */ 

/* Allow flushing all cache on m68k (sys cacheflush) */ 

/* Allow removing semaphores */ 


/* Used instead of CAP CHOWN to “chown” IPC message queues, semaphores 


and shared memory */ 

/* Allow locking/unlocking of shared memory segment */ 

/* Allow turning swap on/off */ 

/* Allow forged pids on socket credentials passing */ 

/* Allow setting readahead and flushing buffers on block devices */ 

/* Allow setting geometry in floppy driver */ 

/* Allow turning DMA on/off in xd driver */ 

/* Allow administration of md devices (mostly the above, but some 
extra ioctls) */ 

/* Allow tuning the ide driver */ 

/* Allow access to the nvram device */ 

/* Allow administration of apm bios, serial and bttv (TV) device */ 

/* Allow manufacturer commands in isdn CAPI support driver */ 


/* Allow reading non-standardized portions of pci configuration space */ 


/* Allow DDI debug ioctl on sbped driver */ 
/* Allow setting up serial ports */ 
/* Allow sending raw qic-117 commands */ 


/* Allow enabling/disabling tagged queuing on SCSI controllers and sending 


arbitrary SCSI commands */ 
/* Allow setting encryption key on loopback filesystem */ 


8define CAP SYS ADMIN 21 
/* Allow use of reboot( ) */ 
#define CAP SYS BOOT 22 


/* Allow raising priority and setting priority on other (different 
UID) processes */ 

/* Allow use of FIFO and round-robin (realtime) scheduling on own 
processes and setting the scheduling algorithm used by another 
process. */ 


#define CAP_SYS_NICE 23 


/* Override resource limits. Set resource limits. */ 

/* Override quota limits. */ 

/* Override reserved space on ext2 filesystem */ 

/* NOTE: ext2 honors fsuid when checking for resource overrides, so 
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253 you can override using fsuid too */ 

254 /* Override size restrictions on IPC message queues */ 

255 /* Allow more than 64hz interrupts from the real-time clock */ 
256 /* Override max number of consoles on console allocation */ 
257 /* Override max number of keymaps */ 

208 

259 #define CAP SYS RESOURCE 24 

260 


261 /* Allow manipulation of system clock */ 
262 /* Allow irix stime on mips */ 

263 /* Allow setting the real-time clock */ 
264 

265 #define CAP SYS TIME 25 

266 

267 /* Allow configuration of tty devices */ 
268 /* Allow vhangup( ) of tty */ 


269 

270 #define CAP SYS TTY CONFIG 26 

271 

272 /* Allow the privileged aspects of mknod( ) */ 
273 

274 #define CAP MKNOD 27 

215 

276 /* Allow taking of leases on files */ 

277 

218 #define CAP LEASE 28 


代 侣 的 作者 已 经 加 了 详尽 的 注释 ， 我 们 这 里 就 不 作 解 释 了 。 定 义 中 的 数值 为 标志 位 的 位 置 ， 如 
CAP CHOWN 的 定义 为 0， 即 第 0 位 。 对 授权 的 检查 是 向 capable( ) 完 成 的 ， 这 是 个 inline BR, EM 
于 sched.h "H: 


681 /* 

682 * capable( ) checks for a particular capability. 

683 * New privilege checks should use this interface, rather than suser( ) or 
684 * fsuser( ). See include/linux/capability.h for defined capabilities. 
685 */ 

686 

687 static inline int capable(int cap) 

688 { 

6898 #if 1 /* ok now */ 

690 if (cap_raised(current->cap effective, cap)) 

691 Helse 

692 if (cap is fs cap(cap) ? current->fsuid == 0 : current—>euid == 0) 
693 #endif 

694 { 

695 current->flags |= PF SUPERPRIV; 

696 return 1; 
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697 } 
698 return 0; 
699  ] 


这 里 的 cap. raised( ) 是 个 宏 操 作 ， 与 之 有 关 的 定义 都 在 capability.h 中 
298 #define cap t (x) (x) 
307 #define CAP TO MASKGO (1 << (x)) 
310 #define cap raised(c, flag) (cap t(c) & CAP TO MASK(flag) & cap bset) 


个 局 量 cap, bset 则 设置 成 CAP. FULL. SET, El PER 32g 1. 

当 进 程 改 变 其 uid 时 ， 要 通过 cap emulate setxuid( ) 检 查 并 可 能 改写 其 授权 情况 ， 除 非 侍 编译 内 核 
前 将 一 个 第 数 SECUREBITS_DEFAULT 中 的 SECURE_NO_SETUID_FIXUP 标志 位 设 蛤 成 为 1， 表示 
可 以 忽略 对 进程 的 授权 机 制 。 田 数 cap_emuiate_setxuid( ) 的 代 介 在 sys.c P: 


[sys setuid( ) > cap_emuiate_setxuid( )] 


420 /* 

421 * cap emulate setxuid( ) fixes the effective / permitted capabilities of 
422 * a process after a call to setuid, setreuid, or setresuid. 

423 * 

424 * 1) When set*uiding from one of {r,e,s}uid == 0 to all of 

425 * {r,e,s}uid ‘= 0, the permitted and effective capabilities are 

426 * cleared. 

421 * 

428 * 2) When set*uiding from euid == 0 to euid != 0, the effective 
429 * capabilities of the process are cleared. 

430 * 

431 * 3) When set*uiding from euid !- 0 to. cuid == 0, the effective 
432 * capabilities are set to the permitted capabilities. 

433 x 

434 * fsuid is handled elsewhere. fsuid -- 0 and {r,e,s}uid!= 0 should 
435 * never happen. 

436 * 

437 x -—astor 

438 * 

439 * cevans - New behaviour, Oct '99 

440 * A process may, via prctl( ), elect to keep its capabilities when it 
44] * calls setuid( ) and switches away from uid==0. Both permitted and 
442 * effective sets will be retained. 

443 * Without this change, it was impossible for a daemon to drop only some 
444 * of its privilege. The call to setuid(!=0) would drop all privileges! 
445 * Keeping uid 0 is not an option because uid 0 owns too many vital 
446 * files.. 

447 * Thanks to Olaf Kirch and Peter Benie for spotting this. 
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449 extern inline void cap emulate setxuid(int old ruid, int old euid, 


450 int old suid) 

45] { 

452 if ((old ruid — 0 | old euid == 0 || old suid == 0) && 
453 (current-^uid != 0 && current >euid {= 0 && current->suid '- 0) && 
454 'current—>keep capabilities) { 

455 cap clear(current-^cap permitted); 

456 cap clear(current-?cap effective); 

457 } 

458 if (old euid == 0 && current->euid != 0) | 

459 cap_clear(current->cap effective); 

460 } 

461 if (old euid != 0 && current-»euid == 0) { 

462 current-?cap effective = current-?cap permitted: 

463 ] 

464  ] 


代码 中 的 cap. clear ) 是 个 宏 操 作 ， 定 义 十 capabllity.h: 
343 #define cap clear(c) do { cap t(c) = 0; } while(0) 


结 人 台 代 码 作者 所 加 的 注释 ， 恋 者 应 该 可以 读 懂 这 段 代码 。 举 例 来 说 ， 如 果 一 个 超级 用 户 进程 通过 
seteuid( ) 将 进程 的 有 效用 户 号 enid 从 0 改变 成 某 个 普通 用 户 的 用 户 号 〈 非 0)， 则 进程 的 “有 效 授权 ” 
cap effective 变 成 0， 但 是 cap permitted 并 未 改变 。 以 后 ， 当 这 个 进程 恢复 点 先 的 euid 时 ， 就 将 进程 
的 cap permitted 复制 到 cap_effective 中 。 但 是 ，setuid( ) 将 进程 的 uid, euid 以 及 suid 全 部 改变 ， 所 以 
进程 的 cap. permitted 和 cap. effective “者 都 被 清 0， 以 后 就 不 能 恢复 了 。 不 过 这 里 还 有 个 例外 ， 那 就 
是 进程 的 task_struct 结构 中 有 个 标志 位 keep_capabilitles， 可 以 通过 系统 调用 pret ) 将 这 个 标志 位 预先 
设 成 1， 这 样 就 可 以 避免 将 cap permitted 清 0 (注意 第 458 行 的 if 前 面 并 没有 else， 所 以 仍 会 将 
cap_effective 清 0). 

淡 才 可 能 会 因为 曾经 使 用 shell 命令 “su" 升 格 成 超级 用 户 而 得 出 … 个 错觉 ， 似 乎 普通 用 户 的 进程 
也 可 以 道 过 系统 调用 setuid( ) 将 自己 的 用 户 号 设置 成 0 而 变 成 超级 用 户 进 程 。 其 实 ，/bin/su 是 个 属于 超 
KAUN “set uid” 可 执行 程序 ， 普 通用 户 的 进程 在 执行 这 个 程序 时 就 有 了 超级 用 广 的 “身份 ”。 齐 检 
查 了 门 令 以 后 ， 它 号 fork( ) 山 一个 新 的 shell 进程 。 这 个 新 shell 进程 的 父 进 程 具有 超级 用 户 的 身份 ， 所 
以 它 也 成 了 超级 用 户 进程 。 全 于 原来 的 shell 进程 和 su 进程 ， 则 都 在 睡眠 等 待 ( 直 全 新 的 shell 进程 
exit( ))。 从 戏 案 上 看 ， 就 好 像 新 的 shell 进程 从 原先 的 shell 进程 手 小 “接管 * 了 终端 的 键盘 和 显示 屏 ; 
而 从 用 户 界 向 来 看 ， 则 似乎 原来 的 shell 进程 “升格 ”成 了 超级 用 户 进程 。 

在 常规 的 访问 权限 控制 机 制 DAC 的 基础 上， 有 些 Unix 变种 版 本 (如 AIX，Solaris 等 ) 作 了 :个 
重 归 的 改进 ， 叫 做 “访问 控制 单 ”(Access Control List)， 缩 写 为 ACL。 在 实现 了 ACL 的 系统 中 ， 每 个 
文件 可 以 伴随 存储 一 份 访问 控制 单 ， 里 面 有 一 些 “ 访 问 控制 项 ”(Access Control Entry)， 可 以 为 具体 的 
用 户 规定 对 基本 访问 权限 的 修正 。 例如， 可 以 这 样 规定 当 用 户 A 属于 用 户 组 gl RBI C ERES 
AR; WAY B 则 水 远 增加 写 访 问 权 ， 调 不 沦 其 是 否 为 文件 主 或 间 组 人 人。 显然， 对 于 商务 应 用 这 是 
很 有 意义 的 ， 可 以 改善 文件 系统 的 安全 性 。`1 前 的 Linux 版 本 正在 朝 实 现 ACL UY, E 些 数 据 结 构 
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中 已 经 设置 了 用 于 ACL 的 结构 成 分 (如 ext2_inode 结构 中 的 i_file_acl #1 i_dir_acl), 以 及 ext2_acl_entry 
的 数据 结构 ， 但 是 其 代码 则 尚未 实现 ， 所 以 在 函数 permission( ) 中 并 未 访问 目标 节点 的 ACL. 

我 们 在 前 面 看 到 了 当 进 程 改 变 用 户 号 时 授权 的 改变 ， 林 是 这 些 授 权 最 初 是 怎么 来 的 呢 ? 让 我 们 来 
看 当 进 程 通过 exec( ) 执 行 一 个 可 执行 文件 时 的 情况 ， 因 为 每 一 个 进程 初始 的 授权 最 终 都 可 以 追溯 到 这 
里 ， 例 如 ， 当 -个 用 户 login 进入 系统 时 ， 系 统 就 会 fork( ) 出 一 个 进程 并 让 它 执行 /pin/bash( 或 csh 55), 
而 这 个 shell 进程 就 成 为 该 用 户 局 动 的 所 有 进程 的 祖先 。 在 “进程 ” 章 中 , 读者 已 经 看 到 在 do_execve() 
中 要 先 通过 prepare binprm( ) 设 置 一 个 linux_binprm 结构 ， 在 这 个 数据 结构 中 同样 有 cap effective. 
cap permitted 和 cap_inheritable 三 字段 ， 分 别 与 task struct 结构 中 的 三 个 字段 相对 应 。 通 数 
prepare, binprm( ) 中 与 授权 有 关 的 处 理 为 《 见 fs/exec.c?: 


[sys execve( ) > do execve( ) > prepare binprm( )] 


600 int prepare binprm(struct linux binprm *bprm) 


601 { 

612 bprm->e_uid = current—>cuid; 

613 bprm-»e gid = current-^egid; 

614 

615 if (LIS NOSUID(inode)) 1 

616 /* Set-uid? */ 

617 if (mode & S. TSUID) 

618 bprm-»e uid = inode-?i uid; 

619 

620 /* Set-gid? */ 

621 fk 

622 * If setgid is set but no group execute bit then this 
623 * is a candidate for mandatory locking, not a setgid 
624 * executable. 

625 */ 

626 if ((mode & (S_ISGTD | S_IXGRP)) == (S ISGID | S_IXGRP)) 
627 bprm->e gid = inode->i_gid; 

628 } 

629 

630 /* We don’t have VFS support for capabilities yet */ 

631 cap clear (bprm->cap_inheritable) ; 

632 cap_clear (bprm->cap_permitted) ; 

633 cap clear(bprm-^cap effective); 

634 

635 /* To support inheritance of root-permissions and suid-root 
636 * exccutables under compatibility mode, we raise all three 
637 x capability sets for the file. 

638 * 

639 * If only the real uid is 0, we only raise the inheritable 
640 * and permitted sets of the executable file. 

64] */ 

642 
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643 if (lissecure (SECURE NOROOT)) { 

644 if (bprme uid == 0 |! current->uid == 0) 1 
645 cap set. full(bprm-»cap inheritable): 

646 cap sei full(bprm-»cap permitted); 

647 ] 

648 if (bprm->e uid == 0) 

649 cap set full(bprm-^cap. effective); 

650 ] 

651 

652 memset (bprm-?buf, 0, BINPRM BUF SIZE); 

653 return kernel read(bprm-^file, 0, bprm->buf, BINPRM BUF SIZE); 
654 Î 


我 们 先 从 631 行 看 起 ， 等 一 下 还 要 问 到 它 前 面 的 几 行 。 二 个 字段 全 部 清 0， 这 就 是 普通 用 户 得 到 
的 授权 。 然 后 ， 如 果 进 程 在 执行 该 可 执行 程序 时 的 有 效用 户 号 为 0， 则 将 linux_binprm 结构 中 的 
cap_inheritable 和 cap effective HRE 1; 如 果 进 程 的 真实 用 户 号 为 0 但 有 效用 户 号 不 为 0， 则 仅 将 
cap inheritable 设 成 全 1。 也 贼 是 说 ， 超 级 川 户 进程 最 初时 具有 全 部 授权 。 但 是 在 开始 运行 过 程 后 超 线 
用 户 进程 可 以 通过 系统 调用 capset( ) 来 减少 其 授权 ， 改 变 以 后 进程 的 用 户 号 仍旧 是 0， 还 是 超级 用 户 进 
程 ， 但 是 授权 却 减 小 了 。 注 意 ，capset( ) 只 能 减少 而 不 能 增加 :个 进程 已 有 的 授权 ， 所 以 是 单 向 的 。 

回 到 前 面 的 第 615 行 至 628 行 ， 可 以 看 到 〈 可 执行 文件 的 )》 模式 mode 中 的 S_ISGID 标志 位 怎样 
影响 看 linux_bimprm 结构 中 的 用 户 号 e_uid #2 5 e gid. 

设置 好 linux_binprm 结构 ， 并 且 装 入 了 可 执行 文件 的 喘 象 以 后 ， 内 核 会 通过 一 个 函数 
compute_creds( ), IRA linux binprm 结构 中 的 内 容 来 设置 当前 进程 的 task. struct 结构 中 的 相应 内 容 , 这 
MERRIE exec.c Tf: 


[load aout binary( ) > compute_creds( )] 或 [load elf binary( ) > compute_creds( )] 


656 /* 

657 * This function is used to produce the new IDs and capabilities 
658 * from the old ones and the file's capabilities. 

659 * 

660 * The formula used for evolving capabilities is: 

661 * 

662 * pl = pl 

663 * (eek) pP = (fP & X) | (fT & pl) 

664 * pE = pP & fF [NB. fF is 0 or ^0] 

665 * 

666 * [-Inheritable, P=Permitted, E=Effective // p=process, f=file 
667 * ' indicates post-exec( ), and X is the global ’ cap bsct’. 

668 * 

669 */ 

670 

671 void compute_creds (struct linux_binprm *bprm) 

672  ( 

673 kernel cap t new permitted, working; 
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0; 


il 


int do unlock 


new permitted = cap_intersect (bprm->cap_permitted, cap bset); 
working = cap intersect (bprm->cap inheritable, 

current-?cap inheritable); 
new permitied = cap combine(new permitted, working); 


if (bprm-»c uid != current->uid || bprm-^e gid != current->gid || 
!cap issubset (new permitted, current—>cap_permitted)) | 
curreni-»dumpable = 0; 


lock kernel( ); 
if (must not trace exec(current) 
|| atomic_read(&current->fs->count) > 1 
|| atomic read(&current->files->count) > 1 
i| atomic_read(&current~>sig->count) > 1) | 
if(!capable(CAP SETUID)) { 
bprm-^»e uid = current-»uid; 
bprm->e gid = current-?gid; 
} 
if(!capable(CAP SETPCAP)) | 
new permitted = cap intersect(new permitted, 
current-»cap permitted); 


} 


do unlock = L; 


/* For init, we want to retain the capabilities set 
* in the init_task struct. Thus we skip the usual 
* capability rules */ 
if (current->pid !- 1) { 
current->cap permitted = new permitted; 
curreni-»cap effective 


cap intersect(new permitted, bprm-?cap effective); 


/* AUD: Audit candidate if current— cap effective is set */ 


bprm-?e uid; 
bprm-?e gid; 


{I 


current->suid = current->euid = current—>fsuid 
current-—>sgid = current->egid = current—>fsgid 


il 


if (do_unlock) 
unlock kernel ( ); 
current-»keep capabilities = 0; 
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Av IAIZE prepare_binprm( ) 设 置 了 linux_binprm 结构 中 的 这 些 授权 以 后 , 还 要 与 进程 当前 山 有 的 授权 
进行 _ 些 整合 。 这 里 的 cap intersect( ) 和 cap_combine( ) 都 是 inline PAA, JA cap_issubset 则 为 宏 操 
作 ， 均 定义 于 capability.h: 


312 static inline kernel cap t cap combine(kernel cap t a, kernel cap t b) 
sx». d 


314 kernel cap t dest; 

315 cap t(dest) = cap t(a) ' cap t(b); 
316 return dest; 

317 ] 

318 

319 static inline kernel, cap t cap intersect(kernel cap t a, kernel cap t b) 
320 1 

321 kernel cap t dest; 

322 cap t(dest) = cap t(a) & cap t(b); 
323 return dest; 

324 } 


34]  &define cap issubset(a, sot) (!(cap t(a) & "cap t(set))) 


也 就 是 说 ， 对 寺 普 通用 户 整 合 以 后 仍 为 0， 而 对 于 超级 用 户 则 整合 以 后 为 当前 的 cap. permitted. 与 
当前 的 cap inheritable 的 逻辑 和 。 如 果 这 个 逻辑 和 不 起 当前 cap permitted 的 一 个 子 集 ， 则 意味 着 执行 
给 定 是 执行 程序 时 的 授权 将 比 进程 现 有 的 授权 有 所 提高 ， 所 以 把 变量 cap raised 设 成 1。 当然 ， 如 果 已 
经 通过 capset( ) 将 当前 进程 的 cap_inheritable 设置 成 0， 则 这 种 授权 的 叫 升 就 不 可 能 发 生 了 。 授 权 的 回 
升 一 般 是 允许 的 ， 但 是 在 第 674 行 所 列 的 五 种 情况 下 则 是 有 条 件 地 允许 。 如 果 当 前 的 cap permitted 中 
不 包括 CAP SETPCAP 就 不 允许 了 。 XE IS NOSUID SER EE X, 表示 inode 所 在 的 文件 系统 在 安装 
时 在 super. block 结构 中 将 MS_NOSUID 标志 位 设 成 了 1 上, 使 该 文件 系统 中 所 有 可 执行 文件 的 “set_uid” 
标志 位 都 作废 了 。 

1 号 进程 , 即 init( ) 进 程 , 是 特殊 的 , 它 的 授权 是 在 宏 定义 INIT_TASK 中 国定 了 的 。 其 cap_effectve、 
cap inheritable 和 cap permitted 分 别 定 为 CAP_INIT_EFF_SET 、CAP INIT INH SET 以 及 
CAP FULL SET. 其 中 CAP. FULL SET 为 全 部 授权 ,市 CAP_INIT_EFF_SET 和 CAP_INIT_INH_SET 
WAKE CAP. SETPCAP 以 外 的 全 部 授权 .系统 中 所 有 其 他 的 进程 者 是 init( ) 进 程 的 后 裔 ,所 以 只 要 init( ) 
进程 调用 capset( ?清除 其 cap. effective 中 的 CAP_SETPCAP， 则 以 后 fork( ) 出 来 的 所 有 进程 就 都 没有 了 
MPP. Moan, RAHA CAP LINUX IMMUTABLE 授权 的 进程 才能 改变 文件 的 S IMMUTABLE 
Al S_APPEND 属性 ， 如 果 init( ) 进 程 将 /etc/inetd.conf 的 属性 加 上 “不 可 改变 ”， 把 /var/log/messages 加 
上 S_APPEND 属性 ， 然 后 清除 其 CAP_LINUX_IMMUTABLE 授权 ， 则 以 后 fork( ) 出 来 的 进程 水 远 都 
不 能 改变 这 两 个 文件 的 这 些 属性 了 。 显 然 ， 这 是 对 于 文件 系统 安 侍 性 的 一 大 改进 。 

前 面 讲 过 ， 将 可 执行 文件 设置 成 “set_uid” 模 式 ， 可 以 使 执行 它 的 进程 在 执行 期 问 将 其 euid 暂时 
改 成 该 文件 的 文件 主 的 ud， 实践 中 通常 起 使 普通 用 户 在 执行 某 个 可 执行 文件 的 期 间 变 成 超级 用 户 。 这 
在 Unix 的 早期 是 一 项 很 巧妙 的 发 明 ， 到 现在 也 还 有 很 重要 的 意义 。 但是， 近年 来 的 实践 发 现 ， 对 Unix 
系统 的 黑客 攻击 事件 大 多 数 者 是 与 此 有 关 的 。 这 种 攻击 都 与 可 执行 程序 本 身 的 缺陷 有 关 ， 其 中 最 主要 
的 就 是 所 谓 “ 缓 冲 区 溢出 ”攻击 。 举 例 来 说 ， 可 能 会 有 这 样 -个 应 用 程序 : 
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main(int argc, char **argv) 


{ 
char options [128]; 
if(argv 1) | 
strepy (options, argv[1]); 
} 
j 


这 段 程序 的 开头 将 用 户 提供 的 命令 行 参数 捞 贝 到 一 个 大 小 为 128 字 节 的 字符 数组 中 ， 但 是 却 没有 
检查 字符 捉 的 长 度 ， 这 是 :个 常见 的 错误 。 : 般 情 况 下 ， 命 令 行 参 数 不 件 十 超过 128 EO. PDO 
不 会 造成 问题 。 可 是 ， 如 果 碰 巧 (或 故意 ) 命 令 行 参数 的 字符 绅 长 度 为 150 5E TIRE? 这 时 候 的 strepy( ) 就 
越界 了 ,出 于 字符 数组 options 是 在 堆栈 中 的 局 部 量 , 一 越界 以 后 就 可 能 把 main( ) 的 返回 地 址 也 冲 掉 了 。 
这 一 般 会 导致 从 main( ) 返 回 时 访问 出 错 ， 但 是 既然 所 此 做 的 事情 已 经 完成 了 ， 一 般 也 束 无 所 谓 了 。 可 
是 ， 黑 客 们 有 可 能 在 经 过 多 次 试 凑 以 后 在 堆栈 中 原先 为 main( ) 的 返回 地 址 的 位 置 上 有 目的 地 植 入 一 个 
返回 地 址 〈 遂 过 strcpy() 从 命令 行 参 数 中 复制 进去 )， 使 得 从 main ) 返 回 时 就 “返回 ”到 一 个 特定 的 地 
方 去 。 这 个 “特定 的 地 方 ” 通常 也 在 堆栈 中 ， 并 且 通 过 类 似 的 手段 植 入 了 一 小 段 吉 执行 代码 ， 例 如 相 
当 于 编 详 后 的 “system(“Ybin/bash”)" 这么 二 十 来 个 字 节 。 这 么 一 来 ， 当 从 main( ) 返 癌 时 就 会 fork() 出 一 
个 shell 进程 出 来 。 对 于 一 般 的 可 执行 文件 ， 这 么 做 的 意义 似乎 并 不 大 ， 因 为 既然 你 能 启动 这 个 可 执行 
文件 ， 就 说 明 你 本 来 就 有 个 shell 进程 。 可 是 ， 如 果 这 个 可 执行 文件 是 个 “set uid" XAR? 这 时 候 黑 
客 们 从 一 个 普通 用 户 的 shell 进程 开始 ， 却 以 得 到 一 个 超级 用 户 的 shell 进程 而 告终 ， 因 为 这 个 shell 进 
程 是 从 超级 用 户 退 出 之 前 fork( ) 的 。 当 然 ， 黑 客 们 事先 未 必 知 道 这 个 “set uid" 的 可 执行 文件 存在 着 这 
样 的 问题 ， 他 们 可 能 是 先 通 过 一 条 shell 命令 “find/ -perm 00400 -uid 0 -type f -print” 列 出 系统 中 所 有 
属 十 趋 级 用 户 的 “set uid” 文 件 ， 然 后 逐一 试 凑 而 已 ， 他 们 有 的 是 时 间 ! 但 是 ， 号 被 他 们 发 现 这 么 一 
^u pAec Bu. ARP RT. (930 BARA AY shell 进程 以 后 ， 他 们 立即 就 会 修改 /etc/passwd， 
将 他 们 的 用 户 号 改 成 0, 或 者 增加 一 个 uid 为 0 的 新 用 户 。 从 此 以 后 ， 他 们 就 可 以 “如 入 无 人 之 境 ” 了 。 
堵塞 这 种 漏洞 的 途径 是 多 方面 的 ， 其 中 之 一 是 把 进程 的 堆栈 段 的 属性 改 成 “不 可 执行 ” 内 为 黑客 们 很 
难 把 什么 内 容 植 入 到 进程 的 代码 段 中 。 此 外 ， 准 备用 作 “set uid” 可 执行 文件 的 应 用 程序 此 精心 设计 、 
精心 实现 和 调试 ， 并 且 系 统 中 的 “setuid” 可 执行 程序 的 数量 要 人 以 可 能 减少 。 

另 一 方面 ， 可 执行 程序 的 “set uid” 机 制 是 否 真 的 必要 也 是 个 问题 。 我 们 住 本 节 开 头 处 以 改变 用 户 
的 口令 为 例 来 说 明 其 必要 性 ， 伺 那 是 建立 在 本 用 户 的 进程 要 直接 修改 /ete/passwd 这 么 个 前 提 之 上 的 。 
早期 Unix 的 进程 间 通 信 机 制 比较 薄弱 ， 所 以 别 无 他 法 。 可 是 ,现在 的 进程 间 道 信 机 制 已 经 很 强 ， 有 的 
事情 可 以 按 Client/Server 的 模式 米 设 计 和 实现 。 例 如 ， 现 竺 完 全 可 能 在 系统 中 建立 “个 内 核 线程 
passwd_d 作为 口令 服务 器 ,每 当 用 户 要 改变 口令 时 不 通过 插口 与 它 建 立 起 连接 ， 然 后 出 passwd_d 负责 
KAA PE ROS, un np Ee RE etc/passwd. eA, TEN ER GK 
/etc/passwd Z fal th T -ERM “BAS” SEREUUIRES. E /etc/passwd W " iE" WHI AYA SY. 

计算 机 系统 的 安全 性 是 个 综合 性 的 问题 ， 在 相当 程度 上 是 个 管理 问题 ， 而 从 技术 角度 来 看 则 主要 
有 两 个 方面 的 问题 ， 中 文件 系统 的 安全 性 与 网 络 操作 的 安全 性 。 由 丁 篇 幅 的 限制 ， 我 们 在 本 书 中 基本 
上 不 涉及 有 关 网 络 的 内 容 〈 我 们 计划 男 外 写 一 本 书 专门 介绍 Linux 内 核 中 与 网 络 有 关 的 代码 ， 其 篇 幅 
吕 能 不 小 于 本 书 。 在 那 本 书 中 我 们 将 讨论 Linux 的 网 络 操作 安全 性 ?。 即 使 站 文件 安全 性 的 问题 ， 也 不 
是 在 区 区 数 上 页 的 篇 幅 中 能 够 讲 清楚 、 讲 企 面 的 ， 所 以 有 兴趣 或 有 需要 的 谈 者 可 以 参考 有 关 的 专著 ， 
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例如 Simon Garfinkel 和 Gene Spafford 的 Practical Unix & Internet Security, 就 是 -本 被 誉 为 这 方面 的 “ 圣 
经 ” 式 的 著作 。 

有 一 种 说 法 ， 说 由 于 Linux 内 核 的 源 代 码 公开 而 使 其 安全 性 降低 了 ， 因 为 黑客 们 可 以 从 源 代 码 中 
去 寻找 漏洞 或 可 乘 之 机 。 这 种 说 法 理所当然 地 遭 到 持 相反 意见 的 人 鞋 的 了 驳斥。 公开 的 源 代 码 固 然 使 攻 
击 的 一 方 容易 找 环 可 乘 之 机 ， 但 是 同时 也 使 防守 的 一 方 易 于 事先 防范 。 即 使 出 了 问题 ， 事 后 的 分 析 和 
解决 问题 也 比较 容易 ， 毕 竟 防 守 方 打 的 是 “人 民 战 争 ”。 如 果 把 攻防 双方 的 较量 比喻 作 一 种 “振荡 ”的 
话 ， 则 公开 的 源 代 码 使 振幅 的 “衰减 ”或 “收敛 ”加 快 ， 这 应 该 是 好 事 。 对 十 防守 来 说 ， 必 、 防 双方 
都 在 明 处 总 比 者 在 暗中 此 好 。 事 实 上 ， 最 令 人 不 安 的 就 是 “ 黑 盒子” 两 眼 一 抹黑 不 知道 里 面 在 干 些 什 
么 。 更 何况 ， 还 有 “党 菲 一 家 ” 开发 系统 的 人 自己 在 系统 中 留 下 “后 门 ” 的 可 能 。 

以 前 ， 人 们 还 只 是 从 理论 上 谈论 这 种 可 能 性 ， 可 是 前 不 和 久 报 载 有 个 Microsoft 的 工程 师承 认 自 己 确 
普 在 Windows 中 人 留 下 了 “后 门 ”。 对 十 一 个 个 公开 源 代 码 的 系统 ， 你 怎么 知道 这 样 的 “后 门 ” 到 底 有 
多 少 呢 ? 

顺便 多 讲 几 负 。 前 一 阵 (2000 年 10 JJ) 又 有 关于 Microsoft 的 报道 ， 说 发 现 有 米 白 俄国 的 黑 密 偿 
入 Microsoft 的 计算 机 系统 达 两 个 星期 之 入 。 对 十 所 造成 的 损害 则 说 法 不 c. MÆ Microsoft 的 官员 ， 
ARARA RECAI Windows 操作 系统 的 源 代 人 码 ， 有 的 则 说 黑客 所 偷 取 的 只 是 正在 开发 中 的 某 应 
用 软件 的 源 代码 ， 而 不 是 Windows 的 源 代码 ， 所 以 用 户 仍 可 放心 云云 。 可 是 ， 不 管 这 一 次 黑客 是 否 已 
经 得 手 〈 也 许 无 人 稍 切 知道 )， 这 种 可 能 性 总 不 能 讲 没 有 。 灶 样 ， 终 有 一 天 ， 当 用 户 还 “放心 ”地 和 守 着 
"AE A, RIERA Windows 的 源 代 码 ， 并 已 作 了 分 析 研 究 。 到 那 时 ， 黑 客 们 不 出 于 便 
X, HPS ae? "MU. COR BE RA, A RATA AZT. 
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Tt—^ ERU CHA PAL “ee” —O 上 按 一 定 的 格式 建立 起 文件 系统 的 时 候 ， 或 者 系 
统 引 导 之 初 ， 设 备 寺 的 文件 和 节点 部 还 是 不 可 访问 的 。 也 就 是 说 ， 还 不 能 按 一 定 的 路 径 名 访问 其 中 特 
定 的 节点 或 文件 《虽然 作为 “设备 ”是 可 访问 的 )。 只 有 把 它 “ 安 装 ” 到 计算 机 系统 的 文件 系统 中 某 个 
节点 上 ， 才 能 使 设备 上 的 文件 和 节点 成 为 可 访问 的 。 经 过 安装 以 后 ， 设 备 上 的 “文件 系统 ”就 成 为 整 
个 文件 系统 的 一 部 分 ， 或 者 说 一 个 了 系统 。 : 般 而 言 ， 文 件 系 统 的 结构 就 好 像 一 棵 倒立 的 树 ， 个 过 由 
于 可 能 存在 着 的 节点 问 的 “连接 ”和 “符号 连接 ”而 并 不 一 定 是 严格 的 图 论 意义 上 的 “ 树 ” 最 初时 ， 
整个 系统 中 只 有 一 个 节点， 屠 就 是 整个 文件 系统 的 “ 根 ” 节 点 “/” 这 个 节点 存在 于 内存 中 ， 内 木 在 
任何 具体 的 设备 上 。 系 统 在 初始 化 时 将 个 “ 根 设备 ”安装 到 节点 “/” 上 上 ， 这 个 设备 上 的 文件 系统 就 
成 了 整个 系统 中 原始 的 、 基 本 的 多 件 系 统 ( 所 以 才 称 为 根 没 备 );。 此 后 ， 就 可 以 由 超级 用 户 进 哥 通 过 系 
统 调用 mount( ) 把 其 他 的 子 系统 安装 到 已 经 存在 于 文件 系统 中 的 空闲 节点 上 ， 使 整个 文件 系统 得 以 扩 
上 骸 ， 当 不 再 需要 使 用 某 个 子 系统 时 ， 或 者 在 关闭 系统 之 前 ， 则 通过 系统 调用 umount( Ht LL ES ZEE E 
SIRS "URENP FE. 

系统 调用 mount( ) 将 一 个 可 访问 的 块 设备 安装 到 一个 可 访问 的 节点 上 。 所 谓 “ 可 访问 ”是 指 该 节点 
或 文件 已 经 存在 于 已 安装 的 文件 系统 中 ， 可 以 通过 路 径 名 寻访 。Unix( 以 及 Linux) 将 设备 看 作 一 种 特殊 
的 义 件 ， 并 在 文件 系统 中 有 代表 着 具体 设备 的 和 点 ， 称 为 “设备 义 件 ”， 通 常 都 在 日 隶 “/dev” 中 。 例 
如 IDE WR | 的 第 个 分 区 就 是 /dev/hdal。 每 个 设备 文件 实际 上 只 是 一 个 索引 节点 ， 节 点 中 提供 了 设 
备 的 “设备 号 ”， 几 “ 主 设备 号 ”和 “次 设备 号 ”两 部 分 构成 。 其 小 主 设备 号 指明 了 设备 的 种 类 ， 或 者 
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更 稍 切 地 说 如 指明 了 应 该 使 用 哪 组 驱动 程序 。 同 “个 物理 的 没 备 ， 如 香 有 两 组 不 同 的 驱动 程序 , 在 
逻辑 上 就 锌 视 作 册 种 不 同 的 说 备 而 在 文件 系统 中 有 陋 个 不 同 的 “ 流 备 文件 ” 次 设备 守则 指明 该 没 备 是 
同 种 设备 中 的 第 几 个 。 所 以 ， 只 灾 找 到 代表 着 某 个 设备 的 索引 布点 ， 束 知道 该 怎样 谈 / 写 这 个 设备 了 。 
院 然 是 一 个 “可 访问 ”的 块 设备 ， 吾 为 什么 还 柴 交 装 昵 ?答案 是 在 安装 之 前 可 访问 的 只 是 这 个 设备 ， 

通常 是 作为 一 个 线性 的 无 结构 的 字 届 流 来 访问 的 ， 称 为 “原始 设备 ”(raw device); 而 设备 上 的 文件 
系统 则 是 不 可 访问 的 。 经 过 安装 以 后 ， 设 备 上 的 文件 系统 就 成 为 可 访问 的 了 。 

读者 也 许 已 经 想到 了 ~ 个 问题 , 那 就 是 ; 系统 调用 mount( ) 划 求 被 安装 的 块 设备 在 安装 之 前 就 是 可 

访问 的 ， 那 根 设备 怎么 让 ? 在 安装 根 设 备 之 前 ， 系 统 中 只 有 一 个 “1” 放 点 ， 根 本 就 不 存在 可 访 河 的 块 
设备 啊 。 足 的 ， 根 设备 不 能 通过 系统 调用 mount( ) 米 安 效 。 事 实 上 ， 根 据 情况 的 不 同 ， 内 核 中 有 三 个 函 
数 是 用 于 设备 安装 的 , 那 就 是 sys mount( ). mount, root( ) 以 及 kem, mount( )。 我 们 先 米 看 sys_mount(), 
这 了 束 古 系统 调用 mount( ) 在 内 核 中 的 实现 ， 其 代码 仁 fs/super.c FP: 


1421 asmlinkage long sys_mount (char * dev name, char * dir name, char * type, 
1422 unsigned long flags, void * data) 
1423 f 

1424 int retval; 

1425 unsigned long data page; 

1426 unsigned long type page; 

1427 unsigned long dev page; 

1428 char *dir page; 

1429 

1430 retval = copy mount options (type, &type page); 
1431 if (retval < 0) 

1432 return retval; 

1433 

1434 dir page - getname(dir name); 

1435 retval - PTR ERR(dir page); 

1436 if (IS ERR(dir page)) 

1437 goto outl: 

1438 

1439 retval = copy mount options (dev name, &dev page); 
1440 if (retval < 0) 

1441 goto out2; 

1442 

1443 retval - copy mount options (data, &data page); 
1444 if (retval < 0) 

1445 goto outs: 

1446 

1447 lock_kernel ( ); 

1448 retval = do mount((char*)dev page, dir page, (char*) type page, 
1449 flags, (void*)data page); 

1450 unlock kernel( ); 

1451 free page(data page): 

1452 

1453 outs: 
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1454 free page(dev page); 
1455 out2: 

1456 putname (dir pago); 
1457 outl: 

1458 free_page(type page): 
1459 return retval; 

1460 ] 


参数 dev. name 为 待 安装 设备 的 路 径 名 ; dir name WU CSA) 的 路 径 名 ; type 是 
表示 文件 系统 类 型 《 即 格 式 》 的 字符 囊 ， 如 “ext2”、“iso9660” 等 。 此 外 ，flags 为 安装 模式 ， 有 关 的 
标志 位 定义 于 include/linux/fs.h: 


96 /* 

97 * These are the fs-independent mount-flags: up to 32 flags are supported 
98 */ 

99 define MS RDONLY 1 /* Mount read-only */ 

100 #define MS NOSUID 2 /* Ignore suid and sgid bits */ 

101 #define MS NODEV 4 /* Disallow access to device special files */ 
102 define MS NOEXEC 8 /* Disallow program execution */ 

103 #define MS SYNCHRONOUS 16 /* Writes are synced at once */ 

104 #define MS REMOUNT 32 /* Alter flags of a mounted FS */ 

105 #define MS MANDLOCK 64 /* Allow mandatory locks on an FS */ 
106 Hdefine MS NOATIME 1024 /* Do not update access times. */ 

107 Hdefine MS NODIRATIME 2048 /* Do not update directory access times */ 
108 #define MS BIND 4096 

109 

110 /* 

111 * Flags that can be altered by MS REMOUNT 

112 */ 

113 #define MS RMT MASK (MS RDONLY;MS NOSUID|MS NODEV | MS_ NOEXEC| \ 

{14 MS SYNCHRONOUS | MS. MANDLOCK|MS. NOATIME :MS NODIRATIME) 

115 

116 /* 

117 * Magic mount flag number. Has to be or-ed to the flag values. 

118 * / 


119 Hdcfine MS MGC VAL OxCOEDO000 
/* magic flag number to indicate “new” flags */ 
120 Hdefine MS MGC MSK Oxffff0000 /* magic flag number mask */ 


例如 ， 如 果 MS NOSUID 标志 为 1， 则 整个 系统 中 所 有 串 执 行文 件 的 suid 标志 位 就 部 不 起 作用 了 。 
但 起 ， 正 如 原作 者 的 注释 所 说 ， 这 些 标志 位 并 不 是 对 所 有 文件 系统 都 有 效 的 。 所 有 的 标志 位 都 看 低 16 
位 中 ， 而 高 16 位 则 用 作 “magic number”. 

最 后 ， 指 针 data 指向 用 于 安装 的 附加 信息 ， 由 不 同文 件 系 统 的 驱动 程序 自行 加 以 解释 ， 所 以 其 类 
型 为 void 指针 。 

代码 中 通过 getname( ) 和 copy. mount, options ) 将 字符 忠 形 式 或 结 爸 珍 式 的 参数 值 从 用 户 空间 复制 
到 系统 空间 。 这 些 参数 伍 的 长 度 均 以 “个 页 面 为 限 ， 但 是 getname( ) 在 复制 时 遇 到 字符 中 结尾 符 “\0” 
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就 停止 ,并 返回 指向 该 字符 串 的 指针 ; 而 copy_mount_options( ) 则 拷贝 整个 页 面 (确切 地 说 是 PAGE_SIZE 
一 1 个 字 节 )， 并 且 返 加 页面 的 起 始 地 址 。 然 后 ， 就 是 这 个 操作 的 主体 do_mount( ) 了 。 我 们 分 段 来 看 


(super.c): 


[sys_mount( ) > do. mount( )] 


1300 /水 

1301 * Flags is a 16-bit value that allows up to 16 non-fs dependent flags to 
1302 * be given to the mount( ) call (ie: read-only, no-dev, no-suid ete). 
1303 * 

1304 * data is a (void *) that can point to any structure up to 

1305 * PAGE SIZE-1 bytes, which can contain arbitrary fs-dependent 

1306 * information (or be NULL). 

1307 * 

1308 * NOTE! As pre-0.97 versions of mount( ) didn't use this setup, the 
1309 * flags used to have a special 16-bit magic number in the high word: 
1310 * OxCOED. If this magic number is present, the high word is discarded. 
1311 */ 

1312 long do_mount (char * dev_name, char * dir_name, char *type_page, 

1313 unsigned long flags, void *data_page) 

]3j4- 4 

1315 struct file system type * fstype; 

1316 struct nameidata nd; 

1317 struct vfsmount *mnt = NULL; 

{318 struct super block *sb; 

1319 int retval = 0; 

1320 

1321 /* Discard magic */ 

1322 if ((flags & MS MGC MSK) == MS MGC VAL) 

1323 flags &- MS MGC MSK; 

1324 

1325 /* Basic sanity checks */ 

1326 

1327 if (!dir name || !kdir name || !memchr(dir name, 0, PAGE SIZE)) 
1328 return -EINVAL; 

1329 if (dev name && !memchr(dev name, 0, PAGE SIZE)) 

1330 return -EINVAL; | 

1331 

1332 /* OK, looks good, now let's see what do they want */ 

1333 

1334 /* just change the flags? - capabilities are checked in do remount( ) */ 
1335 if (flags & MS REMOUNT) 

1336 return do remount(dir name, flags & MS REMOUNT, 

1337 (char *) data page); 

1338 

1339 /* "mount --bind/? Equivalent to older "mount -t bind” */ 

1340 /* No capabilities? What if users do thousands of these? */ 
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1341 if (flags & MS BIND) 
1342 return do loopback(dev name, dir name); 
1343 


首先 是 对 参数 的 检验 。 例 如 对 十 安装 节点 名 就 要 求 指 针 dir name 厅 为 0， 并且 字符 串 的 第 一 个 字 
符 不 为 0， 即 不 是 空 字符 串 ， 并 卫 字 符 串 的 长 度 不 超过 一 个 页 而 。 这 里 的 memehr( ) 在 指定 长 度 的 缓冲 
区 中 隆 找 指定 的 字符 〈 这 里 是 0)， 如 果 找 不 到 就 返回 0。 对 设备 名 dev_name 的 检验 很 有 趣 ; 如 果 
dev. name 为 非 0， 则 字符 串 的 长 度 不 得 长 于 个 页 面 (实际 | copy_mount_options( ) 保 证 了 这 S, E 
AEH DL PAGE_SIZE 一 1 个 字 节 )， 可 是 dev name 为 0 吉 是 允许 的 。 这 似乎 不 可 思议 ， 下 向 读者 将 会 
看 到 ， 在 特殊 情况 下 这 确实 是 允许 的 。 

如 宁 调 用 参数 中 的 MS_REMOUNT 标志 位 为 1， 就 表示 所 要 求 的 只 是 改变 一 个 原 已 安装 的 设备 的 
安装 方式 。 例如, 原来 是 按 “ 只 读 ” 方 式 来 安装 的 , 而 现在 旧 改 为 “可 写 ” 方 式 ; 或 者 原来 的 MS_NOSUID 
标志 位 为 0， 而 现在 要 改变 成 1， 等 等 。 所 以 这 种 操作 称 为 “ 重 安装 ”。 函数 do_remount( ) 的 代码 也 在 
superc 中 ， 读 者 可 以 在 阅读 了 do_mount( ) 的 “主流 ”以 后 回 过 来 白 己 读 一 下 这 个 “支流 ”的 代码 。 

为 “个 分 支 是 对 特殊 设备 如 /dev/loopback 等 “ 回 接 ” 设 备 的 处 理 。 这 种 设备 是 特殊 的 ， 其 实 并 不 
是 一 种 设备 ， 疝 是 一 种 机 制 。 从 系统 的 角度 来 看 ， 它 似 平 是 一 种 设备 ， 但 实际 上 它 只 是 提供 了 一 条 
“lookback” (JRO 到 某 个 可 访问 兽 通 文件 或 块 设备 的 手段 。 举 例 来 说， 系统 的 管理 人 员 可 以 通过 实 
HFE losetup, 实际 上 是 系统 调用 ioctl( ), 建立 起 /dev/loop0 与 一 个 普通 文件 /Pblkfile 之 间 的 联系 , 或 者 
说 将 /dev/loop0“ 同 接 ” 到 /blkfile， 从 而 将 这 个 文件 当 作 一 个 块 设备 来 使 用 : 

losetup -edes  /dev/loopO /bikfile 

这 里 的 可 选项 -e des 表示 在 通过 /dev/loop0 读 写作 为 虚拟 块 设备 的 /blkfile 时 要 对 内 容 加 密 ， 而 加 
密 的 算法 则 为 DES (一 种 加 密 /解密 标准 )。 也 可 以 使 用 比较 简单 的 加 密 算法 XOR， 此 时 可 选项 即 为 
“exor 。 如 果 不 加 密 就 不 用 -e 可 选项 。 回 接 以 后 ， 通 过 /dewiloop0 访问 的 文件 /blkfile 就 作为 -A “Eh 
设备 ”来 使 用 了 ， 所 以 也 要 加 以 格式 化 ; 

mkfs -text2 /dev/loop0 100 

参数 -text2 表示 按 Ext2 格式 化 , 也 可 以 改 用 其 他 文件 系统 的 格式 。 参数 100 表示 该 设备 的 大 小 为 
100 个 记录 块 。 当 然 ， 文 件 /blkfile 原来 的 大 小 要 足够 ， 并 日 其 原来 的 内 容 就 玉 失 了 ， 所 以 一 般 可 以 先 
建立 起 一 个 足够 大 的 空 文件 : 

dd if=/dev/zero — of-/blkfile bs=lk count=100 

回 接 的 对 象 并 不 非得 是 “个 普通 文件 ， 也 可 以 是 一 个 常规 的 块 设备 文件 如 /dewhda2 等 。 但是， 以 
普通 文件 为 回 接 对 象 给 我 们 提供 了 将 它 格式 化 成 “个 文件 系统 并 加 以 安装 的 手段 。 我 们 在 回 接 时 采用 
了 加 密 ， 所 以 格式 化 以 后 的 文件 系统 映 象 是 加 了 密 的 ， 然 后 ， 就 可 以 把 这 个 虚拟 的 块 设备 安装 到 文件 
系统 中 了 : 

mount -t ext2 /dev/loop0 /mnt 
从 此 以 后 ， 就 跟 一 般 已 安装 的 子 系统 一 样 了 ， 只 是 在 我 们 这 个 例子 中 对 这 个 子 系统 的 读 / UR 
Ji 4 


ER 


回 接 的 对 和 象 还 可 以 是 一 个 已经 安装 的 块 设备 。 例 如 ，/dev/hdal 已 经 安装 在 根 节 点 / 上， 我 们 仍 可 
以 把 它 作为 苛 接 的 对 象 。 此 叶 当 然 不 能 青 加 密 ， 也 不 能 再 格式 化 了 ， 但 是 还 可 以 通过 /dewloop0 再 安装 
一 次 在 用 外 一 个 节点 上 )， 例 如 把 它 安装 成 “只 读 ” 方 式 。 如 果 同 忆 一 下 ， 个 进程 (例如 某 种 网 络 
服务 进程 》 可 以 通过 系统 调用 设置 白 己 的 “ 根 ”日 录 ， 就 不 难 想 像 这 种 “ 回 接 ” 设 备 对 子 系统 安全 性 
可 能 有 用 处 了 。 通 常 在 /dev 目录 中 有 /dewloop0 和 /dcwioopl 两 个 四 接 设备 文件 ， 需 要 的 话 可 以 通过 
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对 通过 同 接 设备 的 安装 ， 以 前 在 mount 命令 行 中 有 个 “-o loop” 可 选项 ， 现 在 则 改 成 将 命令 行 中 
的 文件 类 型 如 上 - 种 “bind”， 即 “-tbind”， 表 示 所 安装 的 设备 是 个 “ 押 绑 ”到 其 一个 对 象 上 的 回 接 议 
备 。 所 以 ， 如 果 flags 中 的 MS_BIND 标志 位 为 1 ( 见 代码 中 的 第 1341 行 )， 就 调用 do_loopback( ) 来 完 
成 回 接 设备 的 安装 。 我 们 暂且 跳 过 它 继 续 入 下 读 Csuper.c). 


[sys_mount( ) > do mount( )] 


1344 /* For the rest we need the type */ 

1345 

1346 if (!type page || !memchr(type page, 0, PAGE STZE)) 

1347 return -ETNVAL; 

1348 

1349 tif 0 /* Can be deleted again. Introduced in patch-2.3.99-pre6 */ 
1350 /* loopback mount? This is special - requires fewer capabilities */ 
1351 if (stremp(type page, "bind^)--0) 

1352 return do loopback(dev name, dir name); 

1353 Bendif 

1354 

1355 /* for the rest we really need capabilities... */ 

1356 if (!capable(CAP SYS ADMIN)) 

1357 return -EPERM; 

1358 

1359 /* ... filesystem driver... */ 

1360 fstype = get fs Lype(type page); 

1361 if (fstype) 

1362 return -ENODEV; 

1363 

1364 /* ... and mountpoint. Do the lookup first to force automounting. */ 
1365 if (path init(dir name, 

1366 LOOKUP FOLLOWiLOOKUP POSITIVE!LOOKUP DIRECTORY, &nd)) 
1367 retval = path walk(dir name, &nd); 

1368 if (retval) 

1369 goto fs out; 

1370 

1371 /* get superblock, locks mount sem on success */ 

1312 if (fstype—^fs flags & FS NOMOUNT) 

1373 sb = ERR PTR(-EINVAL) ; 

1374 else if (fstype— fs flags & FS REQUIRES DEV) 

1375 sb = get sb bdev (fstype, dev name, flags, data page); 

1376 else if (fstype-^fs flags & FS SINGLE) 

1377 sb = get sb single(fstypc, flags, data page); 

1378 else 

1379 sh = get sb nodev(fstype, flags, data page); 

1380 

1381 retval = PTR ERR(sb) ; 

1382 if (IS ERR(sb)) 
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1383 goto dput_out; 
1384 


Bia ERE TG RSS ERRAR, PR SAUER AR AUER. -—ROSBACHPUR 
程 部 是 有 这 种 授权 的 。 
系统 文 持 的 每 一 种 文件 系统 都 有 一 个 file system type 数据 结构 ， 定 义 十 include/linux/fs.h: 


839 struct file system type | 


840 const char *name; 

841 int fs flags; 

842 struct super block *OCkread super) (struct super block *, void *, int): 
843 struct module *owner; 

844 struct vfsmount *kern mnt; /* For kernel mount, if it's FS SINGLE fs */ 
845 struct file system type * next; 

846 


结构 中 的 fs. flags 指明 了 其 体 文件 系统 的 一 些 特 性 ， 有 关 的 标志 位 定义 见 文件 fs.h: 


79 /* public flags for file system type */ 

80 #define FS REQUIRES DEV 1 

8l #define FS NO DCACHE 2 /* Only dcache the necessary things. */ 
82 #define FS NO PRELIM 4 /* prevent preloading of dentries, even if 


83 * FS NO DCACHE is not set. 

84 */ 

85 #define FS SINGLE 8 /* 

86 * Filesystem that can have only one superblock; 
87 * kernel-wide vfsmnt is placed in -^kern mnt by 
88 * kern mount( ) which must be called after 

89 * register filesystem( ). 

90 */ 

91 #define FS NOMOUNT 16 /* Never mount from userland */ 

92 Sdefine FS LITTER 32 /* Keeps the tree in dcache */ 

93 &define FS ODD RENAME 32768 /* Temporary stuff; will go away as soon 
94 * as nfs rename( ) will be cleaned up 

95 */ 
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结构 中 有 个 函数 指 外 read_super， 各 种 文件 系统 通过 这 个 指针 提供 用 来 读 入 其 超级 块 的 函数 ,因为 
不 同文 件 系 统 的 超级 块 也 是 不 同 的 。 显 然 ， 这 个 数据 结构 也 是 从 虚拟 文件 系统 VES 进入 具体 文件 系统 
的 个 转 接点 。 同 时 ， 每 种 文件 系统 还 有 个 字符 中 形式 的 文件 系统 类 型 名 。 

安装 文件 系统 时 要 说 明文 件 系统 的 类 型 ， 例 如 系统 命令 mount 就 有 个 可 选项 “-t” 用 于 类 型 名 。 
义 件 系统 的 类 型 名 以 字符 串 的 形式 复制 到 type page 中 ， 现 在 就 用 来 比 对 、 寻 找 其 file system type 数 
IM. 

PRX get. fs type( ) 根 据 具体 文件 系统 的 类 型 名 在 内 核 中 找到 相应 的 人 ie_system_type 结构 ， 有 有 关 的 
代码 在 super.c F: 
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[sys mount( ) > do mount( ) > get_fs_type( )] 


262 struct file system type *get fs type(const char *name) 


263 | 

264 struct file system type *fs; 

265 

266 read lock(&file systems lock); 

267 fs = *(find filesystem(name) ) ; 

268 if (fs && !try inc mod count (fs— owner) ) 
269 fs = NULL; 

210 read unlock(&file systems lock); 

271 if (!fs && (request module(name) == 0)) | 
272 read lock(&file systems lock); 

273 fs = *(find filesystem(name)) ; 

214 if (fs && !try inc mod count (fs—>owner) ) 
275 fs - NULL; 

216 read unlock(&file systems lock); 

277 } 

278 return fs; 

279 } 


[sys mount( ) > do mount( ) > get fs type( ) > find filesystem( )] 


94 static struct file system type **find filesystem(const char *name) 
95 | 


96 struct file system type **p; 

97 for (p-&file systems; *p; p=&(*p)->next) 
98 if (stremp((kp)-»name, name) —- 0) 

99 break; 

100 return p; 

101 ] 


内 核 中 有 一 个 file system type 结构 队列 ， 叫 做 fle_systems， 队 列 中 的 每 个 数据 结构 都 代表 有 一 种 
文件 系统 。 系 统 初始 化 时 将 内 核 支持 的 各 种 文件 系统 的 file system type 数据 结构 通过 一 个 函数 
register filesystem( ) 挂 入 这 个 队列 ， 这 个 过 程 称 为 文件 系统 的 注册 。 除 此 之 外 ， 对 有 些 文件 系统 的 支持 
可 以 通过 “可 安装 模块 ”的 方式 来 实现 。 在 装 入 这 些 异 抉 时 ， 也 会 将 相应 的 数据 结构 注册 挂 入 该 队列 
中 。 

vi A find filesystem( ) 则 扫描 file systems 队列 ， 找 到 所 需 文件 系统 类 型 的 数据 结构 。 在 
file system type 结构 中 有 -个 指针 owner， 如 果 结 构 所 代表 的 文件 系统 类 型 是 通过 可 安装 模块 实现 的 ， 
则 该 指针 指向 代表 着 具体 模块 的 module 结构 。 找 人 到 了 file system type 结构 以 后 ， 要 调用 
try_inc_mod_count( ) 看 看 该 文件 系统 是 否 山 可 安装 模块 实现 ， 是 的 话 就 要 递增 相应 module 结构 中 的 共 
享 计 数 ， 因 为 现在 这 个 模块 多 了 一 个 使 用 埋 。 

要 是 在 file systems 队列 中 找 不 旬 所 需 的 文件 系统 类 型 怎么 办 呢 ? JU request_module( ) 试 斌 
能 否 〈 在 凯 安 装 的 文件 系统 中 ) 找到 用 米 实 现 所 需 文 件 系 统 类 型 的 可 安装 模块 ， 并 将 其 装 入 内 核 ， 如 
果 成 功 的 话 就 再 去 file systems 队列 中 找 一 遂 。 如 果 装 入 所 需 的 可 安装 模块 失败 ， 或 者 装 入 以 后 述 是 找 
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不 到 相应 的 flle system type 结构 ， 那 就 说 明 Linux 系统 不 支持 所 要 求 的 文件 系统 类 型 。 有 关 模 磊 的 装 


入 可 参考 “设备 驱动 ” FE. 


问 到 do mount( ) 的 代码 中 。 找 到 了 给 定 文件 系统 类 型 的 数据 结构 以 后 ， 就 要 寻找 代表 安装 点 的 
dentry 数据 结 愧 了 。 通 过 path_init( ) 和 path_walk( ) 寻 找 目 标 节 点 的 过 程 以 前 已 经 讲 过 ， 就 不 重复 了 。 
找到 了 安装 点 的 dentry 结构 (在 nameidata 结构 nd 中 有 个 dentry 指针 ) 以 后 ， 要 把 待 安装 设备 的 “超级 
块 ” 读 进 来 并 根据 超级 块 中 的 信息 在 内 存 中 建立 起 相应 的 super. block rdg fg. (Bii. ix BU BE 


件 系 统 的 不 同 而 有 几 种 情形 此 | 多 划 对 符 : 
(1) 有 些 虚 拟 的 文件 系统 〈 如 pipe HEARKE), Hh AMT kern_mount( ) 安 装 ， 


时 应 出 错 返 回 。 


Q) 一 般 的 文件 系统 类 型 间 求 有 物理 的 设备 作为 其 物质 基 侧 ， 在 其 fs flags 中 的 
FS REQUIRES DEV 标志 位 为 1， 这 些 就 是 “正常 ”的 文件 系统 类 型 ， 如 ext2, minix, ufs 


等 等 。 对 于 这 些 文件 系统 类 型 ， 通 过 get sb bdev( ) 从 待 安 装 设备 上 读 入 其 超级 块 。 
(3) 有 些 虚 拟 文件 系统 在 安装 了 同类 型 中 的 第 一 个 “设备 ” 从 而 创建 了 超级 块 的 super_ 


都 有 一 个 超级 抉 。 


(4) 还 有 些 文件 系统 类 型 的 fs_flags 中 的 FS_NOMOUNT 标 相 位 、FS_REQUIRE_DEY 标志 位 以 
及 FS_SINGLE 标志 位 全 都 为 0， 所 以 不 属于 上 列 三 种 情形 中 的 任何 一 种 。 这些 所 谓 “ 
统 ” 其 实 也 是 虚拟 的 ， 通 常 只 是 用 来 实现 某 种 机 制 或 者 规程 ， 所 以 根本 就 没有 “设备 ”。 对 


于 这 样 的 “文件 系统 类 型 ”都 是 遂 过 get_sb_nodev( ) 来 生成 一 个 super. block 结构 的 。 
总 之 ， 每 种 义 件 系统 类 型 都 有 个 file system type 结构 ， 而 结构 中 的 长 flags 则 由 各 种 标志 


两 个 用 来 建立 file system type 数据 结构 的 宏 操 作 ， 其 定义 在 fs.h 中 : 


848 #define DECLARE FSTYPE (var, type, read, flags) \ 
849 struct file system type var = { \ 


850 name: type, \ 

85] read super: read, V 

852 fs flags: flags, \ 

853 owner: THIS MODULE, \ 

854  ] 

855 

856 &define DECLARE FSTYPE DEV (var, type, read) \ 

857 DECLARE FSTYPE (var, type, read, FS. REQUIRES DEV) 


一 般 和 常规 的 文件 系统 类 地 部 通过 DECLARE FSTYPE DEV 建立 其 数据 结构 ， 因 为 它们 的 


FS REQUIRE DEV 标志 位 均 为 1， 向 其 他 标志 位 为 0， 例 如 fs/ext2/super.c 中 的 ext2_fs_type: 


而 根本 
不 允许 由 用 户 进 程 通 过 系统 调用 mount( ) 来 安装 。 这 样 的 文件 系统 类 型 在 其 fs flag 中 的 
FS_NOMOUNT 标志 位 为 1。 虚 拟 文件 系统 类 型 的 “设备 ”其 实 没有 超级 块 ， 所 以 只 是 按 特 


定 的 内 容 初始 化 ,或 者 说 牛 成 一 个 super_block 结构 。 对 十 这 种 文件 系统 类 型 , 系统 调用 mount( ) 


block 数 
据 结构 以 后 , 再 安装 同 -类 型 中 的 其 他 设备 时 就 共享 已 经 存在 的 super. block 结构 , 而 不 再 有 
其 日 己 的 超级 块 结构 .此 时 相应 file system type 结构 的 fs_flags 中 的 FS_SINGLE 标志 
表示 整个 文件 系统 类 型 只 有 ' 个 超级 块 ， 而 不 像 一 般 的 文件 系统 类 型 那样 每 个 具体 的 设备 上 


位 组 成 ， 
这 些 标志 位 表明 了 具体 文件 系统 类 型 的 特性 ， 也 决定 着 这 种 文件 系统 的 安装 过 程 。 内 核 代 码 中 提供 了 
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786 static DECLARE FSTYPE DEV(ext2 fs type，“ext2 ，ext2 road super); 


再 如 fs/msdos/msdosfs syms.c 中 的 msdos, fs type: 
29 static DECLARE FSTYPE DEV(msdos fs type. “msdos”, msdos read, super); 


相 比 之 下 ， 特 殊 的 、 虚 拟 的 文件 系统 类 型 则 大 多 直接 通过 DECLARE FSTYPE 建立 起 数据 结构 ， 
内 为 它们 的 fs_flags 是 特殊 的 ， 例 如 fs/pipe.c 中 的 pipe. fs type: 


632 static DECLARE FSTYPE(pipe fs type. “pipefs”, pipefs read super, 
633 FS NOMOUNT|FS SINGLE) ; 


了 以太 fs/ramfs/inode.c 中 的 ramfs fs type: 
336 static DECLARE FSTYPE(ramfs fs type. “ramfs”, ramfs read super, FS LITTER); 


以 后 恋 者 会 看 到 ，flags 中 的 FS; SINGLE 标志 位 有 着 很 重要 的 作用 。 我 们 在 这 里 只 关心 常规 义 件 
系统 的 安装 ， 所 以 只 阅读 get_sb_bdev( ) 的 代码 ， 以 后 我 们 会 结合 其 他 章节 ， 如 进程 间 通 信 利 设备 虹 动 ， 
再 来 阅读 get_sb_single( ) 等 函数 的 代码 。 顺 便 提 一 下 ， 这 申 get_sb_single( ) 和 get_sb_nodev( ) 痢 不 使 用 
参数 dev_name， 所 以 它 可 以 是 NULL。 这 个 函数 的 代码 也 在 fs/super.c 中 ， 我 们 分 段 阅 读 。 


[sys mount( ) > do mount( ) > get sb bdev( )] 


185 static struct super block *get sb bdev (struct file system type *fs type, 


786 char *dev name, int flags, void * data) 
787 f 

188 struct inode *inode; 

789 struct block device *bdev; 

190 struct block device operations *bdops; 
791 struct super block * sb; 

192 struct nameidata nd; 

793 kdev t dev; 

194 int error = 0; 

795 /* What device it is? */ 

796 if (!dev name |. !*dev_name) 

797 return ERR PTR( EINVAL) ; 

798 if (path init (dev_name, LOOKUP FOLLOW|LOOKUP_POSTTIVE, &nd)) 
799 error = path walk(dev name, &nd); 
800 if (error) 

801 return ERR PTR(error); 

802 inode = nd. dentry->d_inode; 

803 error = -ENOTBLK; 

804 if (1S TSBLK(inode->i_mode) ) 

805 goto out; 

806 error = -EACCES; 

807 if (IS NODEV Ci node)) 
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808 golo out; 
对 于 常规 的 文件 系统 ， 参 数 dev name 必须 是 一 个 有 效 的 路 径 名 。 同 样 ， 这 里 也 是 通过 path, init( ) 
和 path. walk( ) 找 到 月 标 节点 ， 即 相应 设备 文件 的 dentry 结构 以 及 inode 结构 。 当 然 ， 找 到 的 inode 4 


构 必 须 是 代表 着 一 个 块 设备 ,其 i_mode 中 的 S_IFBLK 标志 位 必须 为 1, 否则 就 错 了 。 宏 操作 S ISBLKO 
定义 于 include/linux/stat.h: 


28 #define S ISBLK (m) (((m & S IFMI) == S IFBLK) 

设备 文件 的 inode 结构 是 在 path walk( ) 中 根据 从 已 经 安装 的 磁盘 上 (或 其 他 已 安装 的 文件 系统 中 ) 
读 入 的 索引 节点 建立 的 。 对 于 Ext2 文件 系统 ， 我 们 在 “从 路 径 名 到 目标 节点 ”一 节 中 阅读 path_walk( ) 
PARAS INT BS AE “es BT Be Pe HWI ext2_read_inode( ) 中 看 到 这 么 一 段 代码 ; 


[path walk( ) > real lookup( ) > ext2_lookup( ) > iget( ) > get new inode( ) > ext2, read. inode( )] 


1059 if (inode-^i ino == EXT2 ACL IDX INO || 

1060 inode->i ino == EXT2 ACL DATA INO) 

1061 /* Nothing to do */ ; 

1062 else if (S ISREG(inode—>i mode)) { 

1063 inode-^i op = &ext2 file inode operations; 

1064 inode—>i_fop = &ext2 file operations; 

1065 inode-^i mapping-^a ops = &ext2 aops; 

1066 | else if (S ISDIR(inode- i mode)) { 

1067 inode-^i op = &ext2 dir inode operations; 

1068 inode->i fop = &ext2 dir operations; 

1069 } else if (S ISLNK(inode-^i mode)) { 

1070 if (linode-^i blocks) 

1071 inode-^i op = &ext2 fast symlink inode operations; 
1072 else { 

1073 inode->i op = &page symlink inode operations; 
1074 inode->i_mapping->a_ops = &ext2 aops; 

1075 ] 

1076 } else 

1077 init special inode(inode, inode-^i mode, 

1078 1e32 to cpu(raw inode-^i block[0])); 


由 十 设备 文件 既 不 是 常规 文件 ,也 不 是 月 录 , 中 不 是 符号 连接 ,所 以 必然 会 调用 init_special_inode( ), 
其 代码 在 fs/devices.c 中 : 


[path_walk( ) > real lookup( ) > ext2_lookup( ) > iget( ) > get new inode( ) » ext2 read inode( ) » 
init special, 1node( )] 


200 void init special inode(struct inode *inode, umode t mode, int rdev) 


201 { 
202 inode->i_mode = mode; 
203 if (S ISCHR(mode)) { 
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204 inode->i_fop - &del chr fops; 
205 inode->i rdev = to kdev t(rdev); 
206 } else if (S ISBLK (mode)) 1 

207 inode->i fop = &def blk fops; 
208 inode-^i rdev = to kdev t(rdev); 
209 inode-^i bdev = bdget (rdev) ; 

210 } else if (S ISFITO (mode) ) 

211 inode->i_fop = &def fifo fops; 
212 else if (S 1SSOCK (mode) ) 

213 inode->i fop - &bad sock fops; 
214 else 

215 printk (KERN DEBUG "init special inode: bogus imode (%o)\n”, mode); 
216  ] 


以 前 说 过 ， 在 inode 数据 结构 中 有 两 个 设备 号 。 一 个 是 索引 节点 所 在 设备 的 号 但 i dev， 另 一 个 是 
索引 节点 所 代表 的 设备 的 号 公 i_rdev。 中 是 , 如 上 果 看 -下 存储 在 设备 上 的 索引 节点 ext2_inode 数据 结构 ， 
就 可 以 发 现 里 而 … :个 专门 用 于 设备 号 的 字段 也 没有 。 首 先 ， 既 然 索引 节点 人 存储 在 其 个 设备 上 ， 当 然 就 
不 需要 再 在 里 面 说 时 存 储 在 哪个 设备 上 了 。 再 说 ， 一 个 索引 节点 如 果 代 表 首 一 个 设备 ， 那 就 不 需要 记 
录 跟 文件 的 物理 信息 有 关 的 数据 了 ， 从 而 可 以 利用 这 些 空间 来 记录 所 代 赤 设备 的 设备 号 。 事 实 上 ， 当 
索引 节点 代表 着 设 第 时 ， 其 ext2_inode 数据 结构 中 的 数组 iblock ] 空 着 没 用 ， 所 以 就 将 i_block[0] 几 于 
设备 号 。 这 个 设备 号 看 这 里 的 init special node( ) 中 经 过 to_kdev_t( ) 加 以 格式 转换 以 后 束 变 成 node Zi 
构 中 的 i_rdev。 此 人 外， 对 于 块 设备 还 要 使 inode 结构 中 的 指针 i_bdev 指向 一 个 block device 结构 。 具 体 
的 数据 结构 由 bdget( ) 根 据 设 备 号 寻找 或 创建 ， 详 见 “设备 驱动 ” : 章 中 有 关 的 内 容 。 

l|] get_sb_bdev( ) 的 代码 中 (fs/superc): 


[sys_mount( ) > do mount( ) > get sb bdev( )] 


809 bdev = inode->i_bdev; 

810 bdops = devís get ops (devfs get handle from inode(inode)); 
811 if (bdops) bdev->bd_op = bdops; 

812 /* Done with lookups, semaphore down */ 

813 down (&mount_ sem) ; 

814 dev = to kdev t(bdev-^bd dev); 

815 sb = get super (dev) ; 

816 if (sb) 1 

817 if (fs type == sb-?s type && 

818 ((flags ”sb >s flags) & MS RDONLY) == O) { 

819 path release (&nd) ; 

820 return sb; 

821 ) 

822 } else { 

823 mode t mode = FMODE READ; /* we always need it ; ) */ 
824 if (! (flags & MS RDONLY)) 

825 mode |= FMODE WRITE; 

826 error = blkdev get(bdev, mode, 0, BDEV FS); 

827 if (error) 
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828 goto out; 

829 check disk change (dev) ; 

830 error = -EACCES; 

831 if (!(flags & MS RDONLY) && is read only (dev)) 
832 goto out]; 

833 error = —EINVAL: 

834 sb = read super(dev, bdev, fs type, flags, data, 0): 
835 if (sb) 1 

836 get filesystem(fs type): 

837 path release (&nd) ; 

838 return sb; 

839 } 

840 outl: 

841 blkdev put(bdev, BDEV FS); 

842 } 

843 out : 

844 path release (&nd) : 

845 up(&mount sem); 

846 return ERR PTR(error); 

847  ] 


在 block device 结构 中 有 个 指针 bd_op， 指 向 一 个 block device operations 数据 结构 ， 这 就 是 块 设 
备 驶 动 程序 的 函数 跳 转 表 。 所 以 ， 我 们 可 以 把 block_device 结构 比喻 为 块 设备 驱动 “总 线 ” 而 使 其 指 
针 bd. op 指向 某 个 具体 的 block. device operations 数据 结构 ， 就 好 像 是 将 ROR’ BAT RAI 
ih, DEER VES 与 具体 文件 系统 的 关系 是 一 样 的 。 

那么 ， 这 时 要 把 什么 样 的 “接口 卡 ” 插 到 总 线 上 去 呢 ? 原来 ， 在 Linux 的 设备 驱动 方面 正在 进行 
者 ”项 称 为 “devfs” 的 改革 。 传 统 的 /dev 目 永 是 一 种 “平面 ”结构 而 不 像 其 他 上 月 泪 那 样 是 树 状 结构 。 
每 一 个 设备 都 有 个 “ 主 设备 号 ”和 一 个 “次 设备 号 ” 每 当 要 在 /dev 中 建立 一 个 和 节点 〈 即 设备 文件 ) 时 
REE. RRR SoM “个 单一 的 “设备 号 ”， 再 通过 系统 调用 mknod( ) 来 建立 ， 传 统 的 主 、 次 设备 
TAE 8 位 的 ， 所 以 每 种 设备 最 多 只 能 有 255 个 。 随 着 技术 的 发 展 ， 这 个 限制 开始 成 为 问题 了 。 所 以 
Linux 内 核 已 经 开始 使 用 16 位 的 主 、 次 设备 号 。 可 是 ， 另 有 一 派 意 见 认 为 ，/dev 的 这 种 平 而 结构 和 主 、 
次 设备 号 的 使 用 根本 就 应 该 改革 。 也 就 是 说 ， 把 /dev 改 成 树 状 结构 ， 这 样 一 米 路 径 名 就 可 以 惟一 地 确 
定 一 个 设备 的 类 型 和 序号 ， 例 如 /devwhda/1 ， 这 样 就 可 以 把 主 、 次 设备 号 陷 藏 在 路 径 名 的 背后 ， 不 需要 
在 用 户 界面 上 用 什么 主 设备 号 、 次 设备 号 了 。 上 月 前 这 项 改革 正在 进行 中 ， 对 有 些 设备 〈 如 软盘 、 做 带 
等 ) 的 支持 已 开始 使 用 这 种 新 的 方案 。 但 是 , 内 核 必须 问 时 支持 新 、 提 岗 种 方案 , 这 里 对 devfs get ops() 
和 devfs get handle form inode( ) 就 是 出 于 对 devts 的 考虑 。 目 前 〈 以 及 在 未 来 相当 一 段 时 期 内 )， 对 多 
数 块 设备 的 支持 还 会 沿用 传统 的 模式 ， 如 果 尚 不 支持 devfs 则 这 两 个 函数 都 返 I 中 NULL 而 不 起 作用 ， 
相当 寺 让 揪 槽 暂时 空 着 。 我 们 在 “设备 驱动 ”一 章 中 还 要 加 到 devfs 这 个 话题 上 。 另 一 方面 ， 由 于 在 内 
核 中 已 经 开始 使 用 16 位 的 主 、 次 设备 号 ,而 在 大 多 数 文件 系统 中 都 还 是 8 位 的 ,所 以 要 通过 to kdev. 10) 
加 以 转换 。 

完成 了 上 面 的 这 些 准 备 以 后 , 现在 此 进行 实质 性 的 工作 , 就 是 找到 或 建立 待 安装 设备 的 super. block 
数据 结构 了 。 首 先 偿 是 在 内 核 中 寻找 ， 内 核 中 维持 着 一 个 super block 数据 结构 的 队列 super. blocks; 
所 有 的 super block 结构 ， 包 括 空 闲 的 ， 玫 通过 结构 中 的 一 个 队列 头 s list 链 入 到 这 个 队列 中 。 寻 找 时 
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就 通过 get super( ) 从 队列 中 寻找 ， 其 代码 在 fs/super.c 中 : 
fsys_mount( ) > do mount( ) > get sb bdev( ) > get super( )] 


631 /* 

632 * get super ~ get the superblock of a device 
633 * (dev: device to get the superblock for 

634 * 

635 * Scans the superblock list and finds the superblock of the file system 
636 * mounted on the device given. %NULL is returned if no match is found. 
637 */ 

638 

639 struct super block * get super(kdev t dev) 

640 | 

641 struct super block * s; 

642 

643 if (!dev) 

644 return NULL; 

645 restart: 

646 s = sb entry(super blocks.next); 

647 while (s != sb entry(&super blocks)) 

648 if (ss dev == dev) 1 

649 wait on super(s) ; 

650 if (s-^s dev == dev) 

651 return s; 

652 goto restart; 

653 | else 

654 s = sb entry(s-?s list.next); 

655 return NULL; 

656  ] 


这 里 的 sb entry Ai: SERIE, XE X T include/linux/fs.h: 


664 Hdefine sb entry(list) list entry((list), struct super block, s list) 


读者 也 许 会 间 ， 这 是 否 意味 着 同一 个 块 设备 可 以 安装 多 次 ? 答案 是 可 以 的 ， 例 如 我 们 在 前 面 曾经 


讲 到 通过 “ 回 接 设备 ”进行 的 安装 ， 那 就 是 同一 设备 的 多 次 安装 。 


然而 ， 在 大 多 数 情况 下 get_super( ) 实 际 上 都 会 失败 ， 因 而 得 从 设备 读 入 其 超级 块 并 在 内 存 中 建立 
起 该 设备 的 super block 数据 结构 。 为 了 这 个 目的 ， 先 得 要 “打开 ”这 个 设备 文件 ， 这 是 由 blkdev_get() 


完成 的 ， 其 代码 在 fs/block_dev,c H: 
{sys_mount( ) > do mount( ) > get, sb bdev( ) > blkdev_get( )] 


606 int blkdev get (struct block device *bdev, mode t mode, 
unsigned flags, int kind) 


607 { 
608 int ret = -ENODEV; 
609 kdev t rdev = to kdev t(bdev-»bd dev); /* this should become bdev */ 
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610 down (&bdev—>bd_sem) ; 

611 if (!bdev->bd_op) 

612 bdev—>bd_op = get blkfops (MAJOR {rdev)): 

613 if (bdev->bd_op) { 

614 /* 

615 * This crockload is due to bad choice of ->open( ) type. 
616 * [t will go away. 

617 * For now, block device —>open( ) routine must not. 
618 * examine anything in 'inode' argument except ->i rdev. 
619 */ 

620 struct file fake file = {}; 

621 struct dentry fake dentry = (bh; 

622 struct inode *fake inode = get empty inode( ): 

623 ret - -ENOMEM; 

624 if (fake inode) { 

625 fake file.f mode = mode; 

626 fake file.f flags - flags; 

627 fake file. f_dentry = &fake dentry: 

628 fake dentry.d inode = fake inode; 

629 fake_inode—>i_rdev = rdev; 

630 ret = 0; 

631 if (bdev—>bd_op->open) 

632 ret = bdev—->bd_op->open(fake_inode, &fake file); 
633 if (Iret) 

634 atomic, inc (&bdev-5bd openers); 

635 else if (latomic read(&bdev-»bd openers)) 

636 bdev—>bd op = NULL; 

637 iput (fake inode) ; 

638 } 

639 } 

640 up (&bdev—>bd sem); 

641 return ret; 

642 } 


由 于 block device 结构 中 的 bd_dev 有 加 能 还 在 使 用 8 位 的 主 、 次 设备 号 ， 或 者 说 16 位 的 设备 号 ， 
这 里 先 通过 to_kdev_t( ) 将 它们 换 成 16 位 (或 者 说 32 位 的 设备 号 )。 前 面 讲 过 ，block_device 结构 中 的 
指针 bd. op 指向 个 block device operations 数据 结构 。 对 于 devfs 的 设备 这 个 指针 已经 在 前 面 设 置 好 
了 ， 而 对 十 传统 的 块 设备 则 这 个 指针 尚未 设置 ， 暂 时 还 空 着 ， 所 以 要 通过 get_blkfops( ) 根 据 设备 的 主 
设备 号 来 设置 这 个 指针 。 函 数 get_blkfops( ) 的 代码 也 在 fs/olock dev.c 中 : 


[sys mount( ) > do mount( ) > get_sb_bdev( ) > blkdev_get( ) > get. blkfops( )] 


487 /* 

488 Return the function table of a device. 

489 Load the driver if needed. 

490 来 / 

491 const struct block device operations * get blkfops(unsigned int major) 
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492 { 

493 const struct block device operations *ret = NULL; 
494 

495 /* major 0 is used for non-device mounts */ 
496 if (major && major < MAX BLKDEV) { 

497 #ifdel CONFIG KMOD 

498 if Cblkdevs[major].bdops) { 

499 char name[20]; 
500 sprintf (name, “block-major-%d”, major); 
501 request_module (name) ; 

502 } 

503 Hendif 

504 ret = blkdevs[ma jor]. bdops; 

505 } 

506 return ret; 

507. ] 


WpEBudEBT :个 以 让 设备 号 为 下 标的 结构 数组 blkdevsl ]， 用 米 保存 指 身 各 种 块 设备 的 
block. device, operations 结构 的 指针 : 


468 static struct | 

469 const char *name; 

470 struct block devicc_operations *bdops; 
471  } blkdevs|MAX_BLKDEV] ; 


系统 在 初始 化 时 将 所 文 持 的 各 种 块 设备 的 block_device_operations £i JE £F SRL AA FAB IC 
素 中 。 以 可 安装 模块 实现 的 设备 驱动 程序 则 在 装 入 模块 时 才 设 置 相 应 的 指针 。 所 以 ， 如 果 相 应 表 项 的 
bdops 指针 为 0, 则 表明 该 设备 可 能 是 以 可 安装 模块 实现 的 ,但 是 尚 林 装 入 ,因此 柴 调 用 requcst_module() 
将 其 装 入 。 在 正常 情况 下 ， 当 从 get blkfops( ) 返 回 时 指针 bdev->bd->op CAREAT, MAA “E 
卡 ” 已 经 插入 了 “总 线 ”。 

为 了 打开 设备 ， 还 需要 使 用 几 个 临时 的 数据 结构 ， 包 括 file 结构 、dentry 结构 以 及 inode 结构 。 这 
插 刘 指出， 我 们 现在 要 打开 的 是 作为 文件 的 设备 本 身 ， 而 不 是 这 个 设备 在 文件 系统 中 的 代表 如 
“jdev/hdal” 等 节点 ， 那 后 已 经 打开 了 ， 要 不 然 就 无 从 知道 其 主 设 备 号 和 次 设备 号 了 。 打 开设 备 的 操 
作 是 通过 由 具体 设备 类 型 的 block_device_operations 结构 中 的 函数 指针 open 提供 的 。 就- 般 的 ide 磁盘 
而 言 ， 其 数据 结构 为 bd_fops， 而 相应 的 函数 指针 则 指 间 bd open( )。 我 们 在 这 里 就 不 深入 到 打开 设备 
的 过 程 中 去 了 ， 读 者 可 参阅 打开 义 件 及 设备 驱动 等 有 关 章 订 。 

打开 了 设备 ，blkdev_get( ) 也 就 完成 了 。 同 到 get_sb_bdev( )'， 述 要 作 一 些 检查 。 有 些 设备 的 介质 
是 活动 的 ， 可 以 帆 几 户 检 换 的 《例如 软盘 )， 对 丁 这 样 的 设备 炎 检 查 一 下 其 介质 是 否 已 经 变动 了 (如 果 
原 米 已经 安装 的 话 )。 我 们 让 这 里 只 关心 周 定 介质 磁盘 ， 所 以 就 不 深入 到 check. disk change ) 的 代码 中 
去 了 。 有 兴趣 或 有 需要 的 读者 可 以 和 白 心 阅读 。 节 后 ， 还 有 一 项 检查 ， 那 就 是 如 果 安 装 的 模式 不 是 “只 
读 ” 而 所 欲 安装 的 设备 却 已 经 设置 成 “只 读 ” ASMA ER TI -o 

打开 了 其 体 的 设备 以 后 , 就 要 通过 read. super ) 从 设备 上 读 入 超级 块 并 在 内 存 中 建立 起 super. block 
结构 了 ， 其 代码 还 是 在 fs/super.c 中 : 
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[sys_mount( ) > do mount( ) > get sb bdev( ) > read_super( )] 


721 static struct super block * read super(kdev t dev, struct block device *bdev, 
722 struct file_system_type *type, int flags, 
723 void *data, int silent) 
724 { 

125 struct super block * s; 

126 s = get empty super( ); 

727 if (ts) 

128 goto out; 

729 s-?s dev = dev; 

130 s-?s bdev = bdev; 

131 s-?s flags = flags; 

132 S-?s dirt = 0; 

733 sema init(&s-^s vfs rename sem, 1); 

734 sema_init (&s->s_nfsd free path sem, 1): 

T35 s—>s_type = type; 

736 scma_init(&s—>s dquoi.dqio sem, 1); 

737 sema init(&s ^s dquot.dqoff sem, 1): 

738 S-»s dquot.flags = 0; 

739 lock super (s) ; 

140 if (!type->read_super(s, data, silent)) 
741 goto out fail; 

742 unlock super (s) ; 

743 /* tell bdcache that we are going to keep this onc */ 
744 if (bdev) 

745 atomic inc(&bdev-^bd count); 

746 out: 

747 return s; 

148 

149 out fail: 

150 s-?s dev = 0; 

751 s 2s bdev = 0; 

152 8-2s type = NULL: 

[53 unlock super (s); 

754 return NULL; 

705 } 


先 从 super_blocks 队列 中 找到 “个 空闲 的 super block SERJ, EIT — E 36 Re E DL oso 
具体 设备 二 的 文件 系统 类 型 读 入 超级 块 。 如 前 所 述 ， 在 代表 着 具体 文件 系统 类 型 的 file. system type 数 
据 结 构 中 有 个 函数 指针 read_super( 48 I6] RAK AY eL MTF Ext2 文件 系统 ,其 数据 结构 为 ext2_fs_type, 
TAA DY BY PR RGA ET MU FE TS] ext2_read_super(). ee FX ext2_read_super( ) 相 当 大 ， 有 250 £17, MERZ 
和 过 程 则 相对 独立 ， 所 以 我 们 把 它 暂 时 放 一 下 ， 以 后 再 来 读 它 的 代码 ， 坝 在 先 继续 往 下 看 。 

从 设备 上 污 入 超级 块 谋 设置 好 super. block 结构 以 后 ，get_sb_bdev( ) 的 工作 就 完成 了 ， 只 是 返回 前 
可 能 还 逢 槛 递增 用 来 实现 此 种 文件 系统 类 型 的 可 安装 模块 的 使 用 者 计数 : 





[sys_mount( ) > do_mount( ) > get sb bdev( ) > get_filesystem( )] 
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81 /* WARNING: This can be used only if we _already_ own a reference */ 
82 static void get filesystem(struct file system type *fs) 


83 { 

84 if (fs—>owner) 

85 .. MOD INC USE COUNT (fs—>owner) ; 
86 } 


ikh, EHAE path release( ) 释 放 在 path. walk( V'i 4 HKI dentry 结构 (代表 着 待 安装 设备 ) 和 可 能 
的 vfsmount 结构 。 
回 到 do_mount( ) 的 代码 中 继续 往 下 读 (fs/super.c)。 


[sys_mount( ) > do mount( )] 


1385 /* Something was mounted here while we slept */ 
1386 while(d_mountpoint (nd. dentry) && follow down(&nd.mnt, &nd. dentry) ) 
1387 ; 

1388 

1389 /* Refuse the same filesystem on the same mount point */ 
1390 retval = -EBUSY; 

1391 if (nd. mnt && nd. mnt->mnt sb == sb 

1392 && nd.mnt-^mnt root == nd. dentry) 
1393 goto fail; 

1394 

1395 retval = -ENOENT: 

1396 if (Ind. dentry—>d_inode) 

1397 goto fail; 

1398 down (&nd. dentry—>d_inode->i_zombie) ; 

1399 if (!IS_DEADDIR (nd. dentry->d inode)) | 

1400 retval = -ENOMEM; 

1401 mnt = add vfsmnt(&nd, sb->s root, dev name); 
1402 j 

1403 up (&nd. dentry-^d inode-^i zombie): 

1404 if (!mnt) 

1405 goto fail; 

1406 retval = 0; 

1407 unlock out: 

1408 up(&mount sem); 

1409 dput out: 

1410 path release (&nd) ; 

1411 fs out: 

1412 put filesystem(fstype); 

1413 return retval; 

1414 

1415 fail: 

1416 if (list empty (&sb-^s mounts)) 

1417 kill super(sb, 0); 

1418 goto unlock out; 
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1419 } 


待 安装 设备 的 super block 结构 已 经 解决 了 ， 这 一 边 已 经 没有 什么 问题 ， 现 在 要 同 过 头 来 看 安装 
点 这 一 边 了 。 前 面 ， 在 处 理 待 安装 设备 的 超级 块 之 前 ， 已 经 通过 path_init( ) 和 path_walk( ) 找 到 了 安装 
RE) dentry 结构 、inode 结构 以 及 vfsmount 结构 ， 通 过 局 部 量 nameidata 数据 结构 nd 就 可 以 访问 到 这 
些 数 据 结构 。 但 是 还 有 种 情况 需要 考虑 。 

首先 ， 前 面 从 设备 上 读 入 超级 块 的 过 程 症 个 颇 为 漫长 的 过 程 ， 当 前 进程 在 等 待 从 设备 上 读 入 的 过 
程 中 几乎 可 肯定 要 进入 睡眠 ， 这 样 就 串 能 会 有 另 “个 进程 捷足先登 抢先 将 另 一 个 设备 安装 到 了 同 | > 
安装 点 上 。 要 知道 是 否 发 生 了 这 种 情况 ， 可 以 通过 d mountpoint( ) 来 检测 〈 见 文件 deache.h): 


[sys_mount( ) > do mount( ) > d_mountpoint( )] 


259 static | inline | int d_mountpoint (struct dentry *dentry) 


260 = { 
261 return !list_empty (&dentry-^d vfsmnt) : 
262  ] 


如 朱 代 表 着 安装 点 的 dentry 结构 中 的 d. vfsmnt 队列 非 空 ， 那 就 说 明 已 经 有 设备 安装 在 上 面 了 。 在 
这 种 情况 下 怎么 办 呢 ? 我 们 从 代码 中 看 到 其 对 策 是 调用 follow_down( ) 前 进 到 已 安装 设备 上 的 根 节 点 ， 
FERRY while 循环 进步 检测 新 的 安装 点 , 直到 尽头 , 即 前 进 到 不 再 有 设备 安装 的 某 个 设备 上 的 根 
节操 为 止 。 已 安装 设备 的 根 目 录 下 面 一 般 都 二 有 内 容 的 ， 是 否 可 以 把 一 个 设备 安装 在 -个 非 空 的 日 录 
Wate? 可 以 的 。 这 一 点 可 能 与 人 们 的 直觉 和 想像 不 同 。 但 是 ， 将 一 个 设备 安装 到 -个 有 内 容 的 日 
录 六 点 时 ， 该 节点 就 变 成 了 一 个 纯粹 的 安装 点 ， 原 米 目 录 中 的 内 容 就 变 成 不 可 访问 了 。 当 然 ， 从 管理 
的 角度 出 发 应 该 避免 发 生 这 种 情况 ， 但 是 就 技术 角度 而 言 这 是 可 以 的 。 


[sys_mount( ) > do mount( ) > follow_down( )] 


375 int follow down(struct vfsmount **mnt, struct deniry **dentry) 
376 d 


377 return | follow_down (mnt, dentry) ; 
378 ) 


这 个 函数 只 是 将 一个 inline 函数 __follow_down( ) 抽 出 来 作为 “个 普通 的 函数 CEA WY BA 3 
的 区 别 )。 以 前 ， 我 们 在 path_walk( ) 的 代码 中 也 看 到 过 对 这 个 inline 函数 的 引用 。 其 代 公 在 fs/namei.c 


352 static inline int __follow down(struct vfsmount **mnt, struct dentry **dentry) 
353  ( 

354 struct list head *p; 

355 spin lock(&dcache lock), 

356 p = (*dentry)-»d vfsmnt. next: 

357 while (p != &(*dentry)—^d vfsmnt) { 

358 struct vfsmount *tmp; 

359 tmp = list entry(p, struct vfsmount, mni clash); 
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if (tmp-^mnt parent == *mnt) { 
‘mnt = mntget (tmp); 
spin unlock(&dcache lock); 
mntput(tmp-^mnt parent); 
/* tmp holds the mountpoint, so... */ 


dput Ckdentry):; 
*dentry = dget(tmp-^mnt root); 
return 1; 

} 

p = p->next 


} 
spin_unlock (&deache_lock) ; 
return 0; 


} 


把 一 个 设备 安装 到 一 个 目录 节点 时 要 用 个 vfsmount 数据 结构 作为 “连接 件 ”。 该 数据 结构 定义 于 


include/linux/mount.h: 


17 struct vfsmount 

18 1 

19 struct dentry *mnt mountpoint; /* dentry of mountpoint */ 

20 struct dentry *mnt root; /* root of the mounted tree */ 

21 struct vfsmount *mnt parent; /* fs we are mounted on */ 

22 struct list head mnt instances; /* other vfsmounts of the same fs */ 
23 struct list head mnt clash; /* those who are mounted on (other */ 

24 /* instances) of the same dentry */ 

25 struct super block *mnt sb; /* pointer to superblock */ 

26 struct list head mnt mounts; /* list of children, anchored here */ 
27 struct list head mnt child; /* and going through their mnt child * / 
28 alomic t mnt counl; 

29 int mnt flags; 

30 char *mnt devname; /* Name of device e.g. /dev/dsk/hdal */ 

3l struct list head mnt list; 

32 uid t mni owner; 

ad .q5 

结构 中 主要 成 分 的 作用 为 : 

e ”指针 mnt_mountpoint 指向 安装 点 的 dentry 数据 结构 ， 而 指针 mount_root 则 指向 所 安装 设备 上 
AA SEAN dentry 数据 结构 ， 人 在 .者 之 间 搭 起 一 座 桥 染 。 

e 可 是 ,在 dentry 结构 中 却 没有 直接 指向 vfsmount 数据 结构 的 指针 , 而 是 有 个 队列 头 d_yfsmounb 
这 是 因为 安装 点 和 设备 之 间 是 “对 多 的 关系 ， 在 同 “个 安装 点 上 可 以 安装 多 个 设备 。 相 应 地 ， 
vfsmount 结构 中 也 有 个 队 八 头 mnt. clash, 通过 它 链 入 到 安装 点 的 d_vfsmount 队列 中 。 不 过 ， 
从 所 安装 设备 上 根 只 录 的 dentry 数据 结构 出 发 却 不 能 直接 找到 其 vfsmount 结构 ， 册 得 要 通过 
其 super_block 数据 结构 中 转 。 

e 指针 mntsb 指向 所 安装 设备 的 超级 块 的 super block ARAM. RZ, TEM RRR 


super block 数据 结构 中 却 并 没有 直接 指向 vfsmount 数据 结构 的 指针 ， 出 是 有 个 队列 头 
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s_mounts， 因 为 设备 与 安装 点 之 间 也 是 一 对 多 的 关系 ， 同 一 个 设备 可 以 安装 到 多 个 安装 点 上 。 
相应 地 ，vfsmount 结构 中 也 有 个 队列 头 mnt_instances， 遂 过 它 链 入 到 设备 的 s_moeunts 队列 中 。 
€ 指针 mnt_parent 指 向 安装 点 所 在 设备 当初 安装 时 的 vfsmount 数据 结构 ,就 是 |- - 层 的 vfsmount 
数据 结构 。 不 过 ， 在 根 设备 或 其 他 不 存在 上 一 层 vfsmount 数据 结构 的 情况 下 ， 这 个 指针 指向 
该 数据 结构 本 身 。 同 时 ，vfsmount 数据 结构 中 还 有 mnt child 和 mnt mounts WAF, R 
要 上 一 层 的 vfsmount 数据 结构 存在 ,就 通过 mnt, child $A E - Ef vfsmount 结构 的 mnt_mounts 
队列 中 。 这 样 ， 就 形成 一 种 设备 安装 的 央 形 结构 ， 从 一 个 vfsmount 结构 的 mnt. mounts 队列 开 
始 可 以 找到 所 有 直接 或 间接 安装 在 这 个 设备 上 《的 文件 系统 中 ) 的 其 他 设备 。 
€ 此外， 系统 中 还 有 个 总 的 vfsmount 结构 队列 vfsmntlist， 相 应 地 vfsmount 数据 结构 中 还 有 个 队 
列 头 mnt_list。 所 有 已 安 装 设备 的 vfsmount 结构 都 通过 mnt, list 链 入 vfsmntlist 队列 中 。 
所 安装 设备 的 super_block 数据 结构 与 作为 “连接 件 ” 的 vfsmount 数据 结构 之 间 可 以 是 - -对 多 的 关 
系 ， 这 容易 理解 ， 因 为 把 同一 物理 设备 安装 到 文件 系统 中 不 同 的 节点 上， 成 为 逻辑 上 相互 独立 的 子 树 
是 很 虽然 的 事 。 可 是 ， 安 装点 的 dentry 结构 与 vfsmount 结构 之 问 也 可 以 是 -对 多 的 关系 ， 这 就 不 容易 
理解 了 。 很 难 想像 怎么 可 以 把 多 个 设备 安装 到 同一 个 节点 上 。 其 实 ， 这 二 -者 是 联系 的 ， 有 了 前 者 就 会 
有 后 者 。 我 们 通过 一 个 假想 的 情景 米 说 明 这 个 问题 : 假定 有 /dev/hdal、 /dev/hda2、 /dev/hda3. Fil/dev/hdad 
DUS ee CHEESES), /dev/hdal 为 根 设备 〈 这 四 个 设备 文件 节点 都 在 /rdewhdal 上 的 /dev 月 录 下 )， 并 
H, fE/dev/hdal 的 根 日 录 下 有 两 个 空闲 的 目录 节点 /dl1 和 /d12， 而 在 /dewhda2 的 根 日 录 下 则 有 个 空闲 
INH RT d2。 现 在 把 /dewhda2 分 别 安装 到 /d11 和 /dl2 上 去 ， 这 当然 是 可 以 的 。 可 是 ， 这 样 一 来 就 有 
了 1d11/d2 和 /d12/d2 两 个 路 径 通 往 同 “个 物理 的 目录 节点 。 然 后 ， 把 /dewhda3 安装 到 /d11/d2 上 ， 这 样 
/d1l/d2 就 代表 着 /dev/hda3 了 。 可 是 /d12/d2 WE? 显然 ， 它 应 该 还 是 空 的， 因为 /d12 代表 着 一 棵 独立 的 
子 树 。 髓 把 /dev/hda4 安装 到 /d12/d2 证 ， 这 当然 也 是 允许 的 。 好 ， 现 在 /devwhda2 |: 的 目录 节点 d2 就 安 
REPARTIT. AMARA vfsmount 数据 结构 在 其 dentry 结构 的 d. vfsmount 队列 中 。 读 者 自然 就 会 
产生 一 个 问题 : 这 样 ， 当 沿 着 路 径 名 搜索 ， 发 现 d2 是 个 安装 点 而 要 前 进 到 所 安装 的 设备 上 时 ， 怎 么 知 
道 到 底 是 要 前 进 到 /dev/hda3 还 是 /dev/hda4 呢 ? 显 然 这 时 候 需 要 看 路 径 名 的 “上 下 文 ” H, EAE 
顺 有 /dewhda2 的 哪 “次 安装 Cd11/82 或 /412/d2) 搜索 下 来 的 ， 而 上 - 层 的 vfsmount 数据 结构 实际 上 就 
代表 痢 这 个 上 下 文 。 所 以 ， 在 上 面 __follow_down( ) 的 代码 中 是 .个 while 循环 ， 它 扫描 dentry 结构 路 
的 d_vfsmount 队列 中 的 所 有 vfsmount 数据 结构 ， 找 出 其 中 上 一 层 vfsmount 数据 结构 相符 的 那个 “连接 
ft^. 
加 到 do mount( HARRER. Ze: d fs Wa, 剩 卜 的 就 是 把 待 安装 设备 的 super block 数据 结 
构 与 安装 点 的 dentry 数据 结构 联系 在 一 起 ， 即 “安装 ”本 身 了 ， 这 是 通过 add vfsmnt( ) 完 成 的 ， 其 代 
Id fs/super.c 中 : 





[sys mount( ) > do mount( ) > add. vfsmnt( )] 


281 static LIST HEAD(vfsmntlist): 


282 

283 /六 六 

284 * add vfsmnt — add a new mount node 

285 * (Gnd: location of mountpoint or %NULL if we want a root node 

286 * (root: root of (sub)tree to be mounted 

287 * (dev name: device name to show in /proc/mounts or %NULL (for “none”). 
288 * 


511. 


289 
290 
291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 
308 
309 
310 
311 
312 
313 
314 
315 
316 
317 
318 
319 
320 
321 
322 
323 
324 
325 
326 
327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
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This is VFS idea of mount. New node is allocated, bound to a tree 
we are mounting and optionally (OK, usually) registered as mounted 
on a given mountpoint. Returns a pointer to new node or %NULL in 
case of failure. 


Potential reason for failure (aside of trivial lack of memory) is a 
deleted mountpoint. Caller must hold -^i zombie on mountpoint 
dentry (if any). 


Node is marked as MNT VISIBLE (visible in /proc/mounts) unless both 
@nd and @devname are “NULL. Tt works since we pass non-*NULL @devname 
when we are mounting root and kern mount( ) filesystems are deviceless. 
If we will get a kern mount( ) filesystem with nontrivial Gdevname we 
will have to pass the visibility flag explicitly, so if we will add 
support for such beasts we ll have to change prototype. 


static struct vfsmount *add vfsmnt (struct nameidata *nd, 


struct dentry *root, 
const char *dev name) 


struct vfsmount *mnt; 
struct super block *sb = root->d_inode->i sb; 
char *name; 


mnt = kmalloc(sizeof(struct vfsmount), GFP KERNEL); 
if (Imt) 

goto out; 
memset (mnt, 0, sizeof(struct vfsmount)); 


if (nd || dev name) 
mnt-»mnt flags = MNT VISIBLE; 


/* lt may be NULL, but who cares? */ 
if (dev name) { 
name = kmalloc(strlen(dev name)+1, GFP KERNEL); 
if (name) | 
strcpy(name, dev, name); 
mnt-»mnt devname = name; 


} 

mnt-»mnti owner = current->uld; 
atomic_set (&mnt—>mnt count, 1); 
mnt->mnt sb = sb; 


spin lock(&dcache lock); 
if (nd && !IS ROOT(nd-^»dentry) && d unhashed (nd->dentry) ) 
goto fail; 
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337 mnt->mnt_root = dget (root): 

338 mnt—>mnt_mountpoint - nd ? dget(nd->dentry) : dget (root): 
339 mnt-»mnt parent - nd ? mntget(nd->mnt) : mnt: 

340 

341 if (nd) ( 

342 list add(&mnt-5mnt child, &nd-^mnt-^mnt mounts); 
343 list add(&mnt-5»mnt clash, &nd->dentry—>d_vfsmnt) ; 
344 } else { 

345 INIT LTST HEAD(&mnt-^mnt child); 

346 INIT LIST HEAD(&mnt-^mnt clash); 

347 } 

348 INIT LIST_HEAD (&mnt->mnt_mounts) ; 

349 list_add(&mnt->mnt_instances, &sb-^s mounts); 

350 list add(&mnt-^mnt list, vfsmntlist. prev); 

351 spin unlock(&dcache. lock) ; 

352 oul: 

393 return mnt; 

354 fail: 

355 spin unlock(&dcache lock); 

356 if (mnt-^mnt devnamc) 

357 kfree(mnt ->mnt_devname) ; 

358 kfree (mnt) ; 

359 return NULL; 

360 } 


人 至此， 设备 的 安装 就 完成 了 。 
HT do_mount( ) 的 主流 ， 我 们 再 来 看 看 它 的 一 个 支流 do_loopback( )。 我 们 在 前 面谈 论 过 “出 接 
设备 "， 现 在 就 来 看 它 是 怎样 安装 的 。 函 数 do_loopback( ) 的 代码 也 在 文件 fs/super.c 中 : 


[sys_mount( ) > do mount( ) > do_loopback( )] 


1182 [x 

1183 * do loopback mount. 

1184 */ 

1185 static int do_loopback (char *old name, char *new name) 
1186 { 

1187 struct nameidata old nd, new nd; 

1188 int err = 0; 

1189 if (!old name |; !*old name) 

1190 return —EINVAL; 

1191 if (path init(old name, LOOKUP POSITIVE, &old nd)) 
1192 err = path walk(old name, &old nd); 

1193 if (err) 

1184 goto out; 

1195 if (path init(new name, LOOKUP POSITIVE, &new nd)) 
1196 err - path walk(new name, &new nd); 

1197 if (err) 
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1198 goto outl; 

1199 err = mount is safe(&new nd); 

1200 if (err) 

1201 goto out2; 

1202 err - -EINVAL; 

1203 if (S ISDIR(new nd. dentry-^»d inode-^i mode) != 
1204 S ISDIR(old nd. dentry-?d inode-^i mode)) 
1205 goto out2; 

1206 

1207 err - -ENOMEM; 

1208 if (old nd.mnt-»mnt sb->s type-^fs flags & FS SINGLE) 
1209 get filesystem(old_nd. mnt->mnt_sb->s type); 
1210 

1211 down(&mount sem); 

1212 /* there we go */ 

1213 down (&new_nd. dentry~>d_inode->i_ zombie); 

1214 if (IS DEADDIR(new nd. dentry-?d inode) ) 

1215 err = —ENOENT; 

1216 else if (add vfsmnt(&new nd, old nd.dentry, old_nd. mnt->mnt devname) ) 
1217 err = 0; 

1218 up(&new nd. dentry->d_inode->i_zombie} ; 

1219 up (&mount, scm); 

1220 if (err && old nd.mnt-^»mnt sb-»s type-^fs flags & FS SINGLE) 
1221 put filesystem(old nd.mnt-?mnt sb-^s type); 
1222 out2: 

1223 path rclease(&new nd); 

1224 outl: 

1225 path release(&old nd); 

1226 out: 

1227 return err; 

1228 } 


参数 old name 指向 设备 文件 的 路 径 名 ， 而 new_name 指向 安装 点 的 路 径 名 。 读 了 do mount ) 的 主 
流 代码 以 后 再 来 看 这 -- 段 代码 ， 可 能 会 觉得 比 想像 中 的 简单 。 实 际 上 也 确实 是 这 样 ， 原 因 在 才 通 过 癌 
接 设备 安装 之 前 事先 要 通 过 对 回 接 设备 的 ioctl( ) 操 作 《〈 其 体 的 命令 为 LOOP. SET FD) 在 回 接 设 各 与 
日 标 设备 (或 格式 化 成 义 件 系统 的 普通 文件 ) 之 问 建 立 起 联系 ,有 些 准 备 上 作 已 经 在 烛 时 候 做 好 了 《有 
兴趣 的 读者 可 阅读 drivers/block/loop.c 中 的 loop_set_fd( ) 以 及 有 天 的 代 但 )。 

这 里 值得 注意 的 是 对 add_vfsmt( ) 的 调用 参数 , 我 们 不 妨 把 这 里 使 用 的 调 出 参数 与 do_mount( ) 中 使 
用 的 参数 作 一 比较 。 对 add_vfsmnt( ) 的 第 一 个 调用 参数 是 一 个 nameidata AIRE, WREE RW 
备 ， 在 这 里 是 回 接 设备 〈 如 /dewioop0) 卢 点 的 搜索 结果 ， 共 中 的 “个 成 分 指向 该 节点 的 dentry 结构 。 
第 一 个 参数 则 是 指向 安装 点 的 dentry 结构 的 指针 ,这 一 点 在 两 种 情况 下 都 “ 样 。 从 概念 上 说， 所 谓 “ 安 
装 ” 止 号 要 在 安装 点 和 待 安 装点 这 师 个 dentry 结构 之 问 架 设 起 桥梁 ， 从 而 建立 起 二 者 在 逻辑 上 的 等 价 
性 。 这 样 c, TE path_walk( ) 中 一 所 到 达 安 装 的 dentry 结构 就 会 遂 过 follow_down( ) 进 入 回 接 设备 的 
dentry， 就 好 像 进入 某 个 块 设备 根 目录 的 dentry 结构 … 样 。 所 不 同 的 是 : 在 一 般 情况 下 进入 的 是 块 设备 
WEAK dentry 结构 ， 它 的 inode 结构 是 通过 该 设备 的 驱动 程序 从 设备 上 读 入 其 根 目 录 的 索引 节点 而 
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建立 起 来 的 。 而 如 果 进 入 的 是 回 接 设备 的 dentry 结构 呢 ? AAS A R eR ERU! P VAM 
拟 的 “ 块 设备 ”上 读 入 记录 块 时 ， 却 由 回 接 设备 的 驱动 程序 “偷梁换柱 ” 转 到 了 尿 先 设置 好 的 目标 设 
备 ， 读 入 记录 块 的 工作 也 “ 转 包 ” 给 了 目标 设备 的 驱动 程序 。 而 局 接 设备 本 车 的 驱动 程序 ， 则 变 成 了 
某 种 中 介 机 构 ， 并 且 从 市 可 以 在 中 间 对 过 往 的 所 有 记录 块 进行 加 密 、 解 密 。 所 以 ， 从 “安装 ”本 身 的 
角度 看 ， 回 接 设 备 的 安装 确实 很 简单 ， 但 是 通 向 日 录 设 备 的 桥 染 实际 上 -是 由 回 接 设 备 的 驱动 程序 通过 
一 些 内 部 的 数据 结构 建立 起 来 的 。 如 采 说 由 普通 的 块 设备 安装 所 建立 的 是 直接 的 桥梁 ， 孝 么 由 回 接 设 
备 安装 所 建立 的 则 是 间接 的 桥梁 ， 驶 好 像 在 河中 心 有 个 小 品 。 从 概念 上 说 ， 这 与 在 用 户 进程 层面 上 的 
输入 / 输出 重 定向 以 及 通过 管道 实现 的 中 间 过 滤 进 程 是 致 的 。 


看 完了 文件 系统 的 安装 , 再 来 看 文件 系统 的 拆 印 , 这 是 山 sys_umount( ) 完 成 的 , 其 代码 在 fs/super.c 


n: 

1109 /水 

1110 * Now umount can handle mount points as well as block devices. 

1111 * This is important for filesystems which use unnamed block devices. 
1112 水 

1113 * We now support a flag for forced unmount like the other 'big iron 
1114 * unixes. Our API is identical to OSF/1 to avoid making a mess of AMD 
1115 */ 
1116 

1117 asmlinkage long sys_umount (char * name, int flags) 

MIS { 

1119 struct nameidata nd; 

1120 char *kname; 

1121 int retval; 

1122 

1123 lock kernel(); 

1124 kname = getname (name); 

1125 retval = PTR_ERR(kname) ; 

1126 if (IS ERR(kname)) 

1127 goto out; 

1128 retval = 0; 

1129 if (path init(kname, LOOKUP POSITIVE|LOOKUP FOLLOW, &nd)) 

1130 retval = path walk(kname, &nd); 

1131 putname (kname) ; 

1132 if (retval) 

1133 goto out; 

1134 retval = —EINVAL; 

1135 if (nd. dentry != nd.mnt-^mnt root) 

1136 goto dput_and out; 

1137 

1138 retval = -EPERM; 

1139 if (!capable(CAP SYS ADMIN) && current->uid!=nd. mnt—>mnt_owner) 
1140 goto dput and out; 

{141 

1142 dput (nd. dentry) ; 


- S15 . 


Linux ABBE x OC EAD 


1143 /* puts nd.mnt */ 
1144 down(&mount sem); 
1145 retval = do umount(nd.mnt, 0, flags); 
1146 up(&mount sem); 
1147 goto out; 

1148 dput and out: 

1149 path release (&nd) ; 
1150 out: 

1151 unlock kernel( ); 
1152 return retval; 
1153 


由 于 path. init ) 的 调用 参数 中 的 LOOKUP_FOLLOW 标志 位 为 1, 不 论 给 定 的 是 安装 点 的 路 径 名 或 
是 设备 文件 的 路 径 名 ，path_walk( ) 的 结果 都 是 一 样 的 ，nd.dentry 总 是 指 问 设备 文件 上 根 日 录 的 dentry 
结构 ， 而 nd.mnt 总 是 指 癌 用 米 将 该 设备 安装 到 安装 点 上 的 vfsmount 数据 结构 。 华 安 闭 设备 的 时 候 ， 总 
足 将 设备 上 的 根 日 录 作 为 该 设备 的 代表 安 浆 到 为 个 设备 上 的 某 个 节点 上 ， 所 以 如 果 nd.dentry 不 等 于 
nd.mnt->mnt_root 就 说 明 有 了 严重 的 错误 。 通过 了 这 : 层 检 验 ， 先 把 这 个 dentry 结构 释放 ， 因 为 我 们 不 
亚 尖 要 使 用 这 个 数据 结构 了 。 注 意 ， 这 里 的 nameidata 数据 结构 nd 契 局 部 量 ， 所 以 并 不 需要 释放 其 空 
间 。 全 于 nd.mnt 所 指向 的 vfsmount 结构 则 还 需要 在 do_umount( ) 中 使 用 ， 所 以 释放 这 个 数据 结构 的 责 
侍 就 转 给 了 do_umount( )。 完 成 文件 系统 拆 凤 操作 的 主体 do_umount( ) 也 在 fs/super.c 中 : 


[sys umount( ) > do umount( )] 


1013 static int do umount (struct vfsmount *mnt, int umount root, int flags) 
1014 ( 


1015 struct super block * sb = mnt-?mnt sb; 

1016 

1017 /* 

1018 * No sense to grab the lock for this test, but test itself looks 
1019 * somewhat bogus. Suggestions for better replacement? 

1020 * Ho-hum... In principle, we might treat that as umount ! switch 
1021 * 1o rootfs. GC would eventually take care of the old vfsmount. 
1022 * The problem being: we have to implement rootfs and GC for that ;-) 
1023 * Actually it makes sense, especially if rootfs would contain a 
1024 * /reboot - static binary that would close all descriptors and 
1025 * call reboot(9). Then init(8) could umount root and exec /reboot. 
1026 */ 

1027 if (mnt == current-»fs-»rootmnt && !umount root) | 

1028 int retval = 0; 

1029 /* 

1030 * Special case for "unmounting" root .. 

1031 * we just try to remount it readonly. 

1032 * / 

1033 mntput (mnt) ; 

1034 if ('(sb->s flags & MS RDONLY)) 

1035 retval = do remount sb(sb, MS RDONLY, 0); 
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1036 return retval: 


1037 } 

1038 

1039 spin lock(&dcache lock); 

1040 

1041 if (mnt->mnt instances. next != mnt ->mnt_instances. prev) f 
1042 if (atomic read(&mnt-»mnt count) > 2) { 

1043 spin unlock(&dcache lock); 

1044 mntput (mnt) ; 

1045 return -EBUSY; 

1046 } 

1047 if (sb->s_type->fs_flags & FS SINGLE) 

1048 put filesystem(sb 5s type); 

1049 /* We hold two references, so mntput( ) is safe */ 
1050 mntput (mnt) ; 

1051 remove vfsmnt (mnt); 

1052 return 0; 

1053 } 

1054 spin_unlock (&dcache_lock) : 

1055 


调用 参数 umount_root 表示 所 要 拆卸 的 是 否 根 设备 , 我 们 在 前 面 的 代码 中 看 到 从 sys_umount( ) 中 调 
用 时 这 个 参数 为 0， 用 户 进程 是 个 能 通过 umount( ) 直 接 拆 卸 根 设备 的 。 从 用 户 进 程 遂 过 umount( ) 45 
油 用 拆 师 根 设备 只 意味 着 将 它 重 安装 成 “只 读 ” 模 式 。 

在 vfsmount 数据 结构 中 也 有 个 使 用 计数 mnt_count， 在 add. vfsmnt( ) 中 设置 为 1。 从 那 以 后 ， 每 当 
要 使 用 这 个 数据 结构 时 就 通过 mntget( ) 递 增 其 使 用 计数 ， 用 完了 就 通过 mntput( ) 递 减 其 计数 。 例 如 ， 
在 函数 path_init( ) 中 就 调用 了 mntget( ) 而 在 path_release( ) 中 则 调用 了 mntput( )， 又 如 在 follow_up( ) 和 
follow_down( ) 中 都 既 调 用 了 mntget( ) 义 调用 了 mntput( )。 所 以 ， 在 do_umount( ) 中 所 处 埋 的 vfsmount 
结构 中 的 使 用 计数 应 该 是 2， 如 果 大 十 这 个 数值 就 说 明 还 有 其 他 的 操作 过 程 还 正在 使 用 这 个 数据 结构 ， 
因此 不 能 完成 拆 丢 向 只 能 出 错 返 同 。 当 然 ， 在 出 错 返 回 之 前 也 要 通过 mntput( ) 北 减 这 个 使 用 计数 。 

前 面 讲 过 ，vfsmount 结构 在 安装 文件 系统 时 通过 其 队列 头 mnt. instances 挂 入 一 个 super_block 结构 
的 s_mounts 队列 。 通 常 一 个 块 设 备 只 安装 一 次 ， 所 以 其 super block 结构 中 的 队列 s mounts HRE A 
vismount £i fj, AIEI vfsmount 结构 的 队列 头 mnt, instances 中 的 两 个 指针 next 和 prev 相等 。 介 是， 在 
有 些 情 祝 下 同一 个 设备 是 可 以 安装 多 次 的 ,此 时 其 super_block 结构 中 的 s_mounts 队列 含有 多 个 vfsmount 
结构 ， 而 队列 中 的 每 个 vfsmount 结构 的 mnt. instances 中 的 两 个 指针 就 不 相等 了 。 所 以 ， 此 时 代码 中 调 
用 remove_vfsmnt( ) 所 拆 务 的 并 不 是 相应 设备 仅 存 的 安装 。 这 种 情况 下 的 拆 纯 比较 简单 ， 因为 只 起 拆除 
该 设备 多 次 安装 中 的 一 次 ， 侧 并 非 最终 将 设备 拆 下 。 下 而 给 出 冰 数 remove, vfsmnt( ) 的 代码 Cfs/super.c ): 


[sys umount( ) > do umount( ) > remove_vfsmnt( )] 


408 /* 

409 * Called with spinlock held, releases it. 

410 */ 

411 static void remove_vfsmnt (struct vfsmount *mnt) 
42 d 
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413 
414 
415 
416 
417 
418 
419 
420 
421 
422 
423 
424 
425 
426 
421 
428 


} 
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/* First of all, remove it from all lists */ 
list del(&mnt-^mnt instances); 
list del(&mnt-^»mnt clash); 
list del(&mnt-^mnt list); 
list del (&nnt-^mnt child); 
spin unlock(&dcache lock); 
/* Now we can work safely */ 
if (mnt-^mnt parent !- mnt) 
mntput (mnt-^?mnt parent); 


dput (mnt—>mnt_mountpoint) ; 
dput (mnt—>mnt root); 
if (mnt->mnt devname) 

kfree (mnt->mnt_devname) ; 
kfree (mnt) ; 


对 这 些 代码 读者 应 该 不 会 感到 困难 。 函 数 dput( ) 递 增 一 个 dentry 结构 的 使 用 计数 ， 如 果 递 碱 后 达 
到 了 0， 就 将 此 数据 结构 转移 到 dentry unused 队列 中 。 
[£j do_umount( ) 的 代码 中 。 相 比 之 下 ， 如 果 vfsmount 数据 结构 代表 着 一 个 设备 的 惟一 安装 ， 那 


就 比较 复杂 一 


点 了 。 我 们 在 这 里 并 不 关心 磁盘 空间 配额 的 问题 ， 所 以 跳 过 DQUOT OFF( ) 和 


acct_auto_close( ) 直 接 往 下 读 。 


[sys umount( ) > do umount( )] 


1056 
1057 
1058 
1059 
1060 
1061 
1062 
1063 
1064 
1065 
1066 
1067 
1068 
1069 
1070 
1071 
1072 
1073 
1074 
1075 
1076 
1077 
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/* 

* Before checking whether the filesystem is still busy, 

* make sure the kernel doesn't hold any quota files open 
* on the device. If the umount fails, too bad -- there 

* are no quotas running any more. Just turn them on again. 
*/ 

DQUOT OFF (sb) ; 
acct auto close(sb-^s dev); 


* If we may have to abort operations to get out of this 

* mount, and they will themselves hold resources we must 

* allow the fs to do things. In the Unix tradition of 

* 'Gee thats tricky lets do it in userspace the umount begin 

* might fail to complete on the first run through as other tasks 
* must return, and the like. Thats for the mount program to worry 
* about for the moment. 


if( (flags&MNT FORCE) && sb->s_op->umount_begin) 
sb-^s op-^umount begin (sb); 
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1078 /* 


1079 * Shrink dcache, then fsync. This guarantees that if the 
1080 * filesystem is quiescent at this point, then (a) only the 
1081 * root entry should be in use and (b) that root entry is 
1082 * clean. 

1083 */ 

1084 shrink dcache sb (sb); 

1085 fsync dev(sb-^s dev); 

1086 

1087 if (sb->s root-^d inode-^i state) { 

1088 mntput (mnt) ; 

1089 return -EBUSY; 

1090 } 

1091 

1092 /* Something might grab it again - redo checks */ 

1093 

1094 spin lock(&dcache lock); 

1095 if (atomic read(&mnt-^mnt count) > 2) { 

1096 spin unlock(&dcache lock); 

1097 mntput (mnt) ; 

1098 return -EBUSY; 

1099 } 

1100 

1101 /* OK, that’s the point of no return */ 

1102 mntput (mnt) ; 

1103 remove vfsmnt (mnt), 

1104 

1105 kill super(sb, umount root); 

1106 return 0; 

1107 } 


AERE BOR ERENT A VF — SR EE IT RA, IP RAISE super. operations RABE 
转 表 内 的 函数 指针 umount_begin 18828 v RRR 

把 一 个 设备 最 终 从 文件 系统 中 拆卸 下 来 ， 这 意味 着 从 此 以 后 这 个 子 系统 中 的 所 有 节点 都 不 再 是 可 
访问 的 了 。 以 前 讲 过 ， 每 当 其 个 过 程 开 始 使 用 一 个 节点 的 dentry 结构 时 都 要 通过 degt( ) 递 增 其 使 用 计 
数 ， 如 果 内 存 中 尚 无 此 节点 的 dentry 结构 存在 就 要 为 之 建立 并 将 其 使 用 计数 设 成 1。 与 其 相对 应 ， 每 
当 结束 使 用 “个 dentry 结构 时 就 要 通过 dput( ) 递 减 其 使 用 计数 ， 如 果 达 到 了 0 就 要 将 这 个 数据 结构 转 
移 到 dentry_unused 队列 中 。 之 所 以 不 马上 将 不 在 使 用 中 的 dentry 结构 释放 ， 而 将 它们 留 在 这 个 队列 中 
是 为 了 提供 “ 些 缓冲 ， 因 为 说 不 定 很 快 就 义 要 用 了 。 训 是 现在 既然 要 最 终 卸 下 “个 设备 ， 则 属于 这 个 
设备 的 所 有 dentry 结构 青 没有 保留 的 必要 。 所 以 ， 此 时 要 扫描 dentry_unused 队列 ， 把 所 有 属于 这 个 队 
列 的 dentry 结构 都 释放 掉 ， 这 就 是 shrink_dcache_sb( ) 要 做 的 事情 。 其 代码 在 fs/dcache.c 中 


[sys umount( ) > do umount( ) > shrink dcache sb( )] 


378  /*x 
379 * shrink dcache sb - shrink dcache for a superblock 
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380 * @sb: superblock 


381 * 

382 * Shrink the dcache for the specified super block. This 
383 * is used to free the dcache before unmounting a file 
384 * system 

385 */ 

386 


387 void shrink dcache sb (struct super block * sb) 
388 { 


389 struct liist head *tmp, *next; 

390 struct dentry **dentry; 

391 

392 /* 

393 * Pass one ... move the dentries for the specified 
394 * superblock to the most recent end of the unused list. 
395 */ 

396 spin lock(&dcache lock); 

397 next = dentry unused. next; 

398 while (next != &dentry unused) { 

390 tmp = next; 

400 next = tmp-2next; 

401 dentry = list entry(tmp, struct dentry, d lru); 
402 if (dentry-^d sb !- sb) 

403 continue; 

404 list del(tmp); 

405 list add(tmp, &dentry unused): 

406 } 

407 

408 /* 

409 * Pass two... free the dentries for this superblock. 
410 */ 

411 repeat: 

412 next = dentry unused. next; 

413 while (next != &dentry unused) { 

414 tmp = next; 

415 next = tmp->next; 

416 dentry = list entry(tmp, struct dentry, d lru); 
417 if (dentry->d_sb !- sb) 

418 continue; 

419 if (atomic_read(&dentry->d_count) ) 

420 continue; 

421 dentry stat.nr unused--; 

422 list del(tmp); 

423 INIT LIST HEAD(tmp) ; 

424 prune one dentry(dentry); 

425 goto repeat; 

426 } 

427 spin unlock(&dcache lock); 
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428  ] 


这 段 代 但 的 逻辑 比较 简单 ， 其 体 释 放 … 个 dentry 结构 的 操作 是 由 prune. one. dentry( ) 完 成 的 ， 其 
ffi [a] — x: 4 dcache.c) # : 


[sys_umount( ) > do umount( ) > shrink_dcache_sb( ) > prone_one_dentry( )] 





298 /* 
299 


* 


Throw away a dentry - free the inode, dput the parent. 


300 * This requires that the LRU list has already been 
301 * removed. 

302 * Called with dcache lock, drops it and then regains. 
303 */ 

304 static inline void prune one dentry (struct dentry * dentry) 
305 d 

306 struct dentry * parent; 

307 

308 list del init(&dentry-^d hash); 

309 list del(&dentry-^d child); 

310 dentry iput (dentry) : 

311 parent = dentry->d_parent; 

312 d free (dentry) ; 

313 if (parent != dentry) 

314 dput (parent) ; 

315 spin lock(&dcache lock); 

316 — ] 


册 回 到 do umount( OWARI H, Fo AFRE fsync_dev( )。 

为 了 提高 效率 ， 块 设备 的 输入 / 输出 一 般 都 是 有 缓冲 的 ， 无 论 是 对 超级 块 的 改变 还 是 对 某 个 索引 
节点 的 改变 ， 或 者 对 某 个 数据 块 的 改变 ， 都 只 是 对 它们 在 内 存 中 了 蜗 象 的 改变 ， 而 不 ，: 定 与 上 就 写 串 设 
名 上 ， 现 在 设备 要 和 扼 十 来 了 ， 当 然 要 先 把 已 经 改变 了 ， 但 是 尚未 当 回 设备 的 内 容 写 回去 。 这 称 为 “ 同 
步 "，” 是 由 fsyne_dev( ) 完 成 的 ， 其 代码 在 fs/buffer.c 中 : 


[sys umount( ) > do umount( ) > shrink dcache sb( ) > fsync_dev( )] 


304 . int fsync dev(kdev t dev) 


305 i 

306 sync buffers(dev, 0); 
307 

308 lock kernel( ); 

309 sync supers (dev) ; 

310 sync inodes (dev); 

311 DQUOT_SYNC (dev) ; 

312 unlock kernel ( ); 

313 

314 return sync_buffers(dev, 1); 
315} 
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先 看 超级 块 的 同步 ， 函 数 sync_supers( ) 的 代 但 在 fs/super.c 中 : 


[sys_umount( ) > do umount( ) > shrink_dcache_sb( ) > fsync_dev( ) > Sync_Supers( )] 


605 
606 
607 
608 
609 
610 
611 
612 
613 
614 
615 
616 
617 
618 
619 
620 
621 
622 
623 
624 
625 
626 
627 
628 
629 


每 当 改 变 一 个 super block 结构 的 内 容 时 都 要 将 结构 中 的 s dirt 标志 设 为 1， 表示 这 个 结构 的 内 容 
EA “E” T, 也 就 是 与 设备 上 的 超级 块 不 一 致 了 ; 而 在 将 超级 块 写 回 设 备 时 则 将 这 个 标志 清 0。 所以， 
如 果 - -个 super block 结构 的 s dirt 标志 非 0 就 表示 应 该 加 以 同步 。 不 过 ， 如 前 所 述 ， 有 些 设备 ， 主 要 
是 一 些 虚 拟 设 备 ， 本 来 就 没有 什么 “超级 块 ” 或 者 类 似 的 东西 ， 所 以 还 要 看 super block 结构 中 的 指针 
s op AEA Halt) 个 super. operations 结构 ， 以 及 这 个 结构 中 是 否 为 write_super BER T -ARR M 
Ext2 文件 系统 而 言 ， 这 个 函数 是 ext2_write_super( )。 访 者 可 以 在 下 和 耐看 了 ext2 read super( ) 以 后 自己 


/* 

* Note: check the dirty flag before waiting, so we don t 
* hold up the sync while mounting a device. (The newly 
* mounted device won't need syncing.) 

*/ 

void sync supers (kdev & dev) 

{ 


struct super_block * sb; 


for (sb = sb_entry(super_blocks. next) ; 
sb != sb entry(&super blocks); 
sb = sb entry(sb->s list.next)) { 
if (!sb-5s dev) 
continue; 
if (dev && sb-^s dev !- dev) 
continue; 
if (!sb->s dirt) 
continue; 
lock. super (sb) ; 


if (sb->s dev && sb->s dirt && (!dev ;| dev == sb->s_dev)) 


if (sb->s op && sb->s op-—>write super) 
sb-^s op-»write super (sb); 
unlock, super (sb) ; 
} 
} 


阅读 ext2_write_super( )。 
再 来 看 索引 节点 的 同步 ， 滑 数 sync inodes( ) 的 代码 在 fs/inode.c H: 


[sys umount( ) > do umount( ) > shrink_dcache_sb( ) > fsync_dev( ) > sync_inodes( )] 


237 
238 
239 
240 
241 


sync inodes 
@dev: device to syne the inodes from. 


sync inodes goes through the super block's dirty list, 
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242 * writes them out, and puts them back on the normal list. 
243 */ 

244 

245 void sync inodes(kdev t dev) 

246 | 

247 struct super block * sb = sb entry(super blocks. next); 
248 

249 /* 

250 * Search the super blocks array for the device(s) to sync. 
251 */ 

252 spin lock(&inode lock); 

253 for (; sb != sb entry(&super blocks); sb = sb entry(sb-5s list.next)) | 
254 if (!sb->s dev) 

255 continue: 

256 if (dev && sb->s dev != dev) 

257 continue; 

208 

259 sync list(&sb-^s dirty); 

260 

261 if (dev) 

262 break; 

263 } ; 

264 spin unlock(&inode lock); 

266 ] 


在 super. block 结构 中 还 有 个 队列 s. dirty, 凡是 已 经 改变 了 的 inode 结构 就 通过 它 的 i_list 队列 头 
挂 入 其 所 属 super. block 结构 的 s dirty 队列 。 所 以 ， 要 同步 的 是 整个 队列 ， 这 是 由 sync. list 完成 的 ， 
有 关 的 代码 在 同一 文件 (fsyinode.c) 中 : 


[sys umount( ) >do_umount( ) >shrink_dcache_sb( ) >fsync_dev( ) sync inodes( ) > sync. list( )] 


229 static inline void sync list(struct list head *hcad) 


230 | 

231 struct list head * tmp; 

232 

233 while ((tmp = head->prev) != head) 

234 sync one(list entry(tmp, struct inode, i list), 0); 
235} 


[sys umount( ) > do_umount( ) > shrink dcache sb( ) > fsyne_dev( ) > sync, inodes( ) > sync_list( ) > 
sync one( )] 


194 static inline void syne one(struct inode *inode, int sync) 
195 d 

196 if (inode->i state & 1 LOCK) { 

197 . iget(inode); 

198 spin unlock (&inode lock); 
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199 | wait on inode(inodo); 

200 iput (inodo); 

201 spin lock(&inode lock); 

202 } else { 

203 unsigned dirty; 

204 

205 list del(&inode— i list); 

206 list add(&inode >i list, atomic read(&inode >i count) 
207 ? &inode in use 

208 : &inode unused) ; 

209 /* Set T LOCK, reset I DIRTY */ 

210 dirty = inode-^i state & T DIRTY; 

211 inode-^i state |= I LOCK; 

212 inode-^i state &- "I DIRTY; 

213 spin unlock(&inode lock); 

214 

215 filemap fdatasync(inode-^i mapping); 

216 

Zhe /* Don’t write the inode if only T DIRTY PAGES was set */ 
218 if (dirty & (T DIRTY SYNC | T DTRTY DATASYNO)) 
219 write inode(inode, sync); 

220 

221 filemap fdatawait(inode-^i mapping); 

222 

223 spin lock(&inode, lock); 

224 inode-^i state &- ^1 LOCK: 

225 wake up(&inode-^i wait): 

226 } 

227 |] 


[sys umount( ) > do umount( ) > shrink_dcache_sb( ) fsync dev( ) > sync. inodes( ) > sync. list( ) > 
sync one( ) > write inode( )] 


174 static inline void write inode(struct inode *inode, int sync) 

175. 这 

176 if (inode »i sb && inode->i sb-»s op && inode->i sb-^s op-?write inode) 
177 inode->i_sb->s_op—>write_inode (inode, sync); 

178 } 


3x4 Hexe [C5 B1Z X. Ext2 文件 系统 的 write inode 操作 为 ext2_write_inode()， 山 于 我 们 在 前 
(i tat ext2 read inode( ) 的 代码 ， 这 里 就 不 深入 进去 了 。 

由 十 我 们 对 磁盘 空间 上 屿 额 不 感 兴趣 ， 和 独 下 的 只 是 数据 块 的 同步 了 ， 那 就 是 sync_buffers( )， 我 们 将 
在 “文件 的 读 与 写 ” 一 节 路 读 这 个 函数 的 代 代 。 

经 过 这 么 些 代码 的 阅读 ， 读 者 对 super block 数据 结 爸 想 必 已 经 有 了 个 天敏 的 印象 ， 现在 来 有 它 的 
定义 应 该 容易 理解 了 。 这 是 在 include/linux/fs.h 中 定义 的 : 


665 struct super block { 


- 524 . 


666 
667 
668 
669 
670 
671 
672 
673 
674 
675 
676 
677 
678 
679 
680 
681 
682 
683 
684 
685 
686 
687 
688 
689 
690 
691 
692 
693 
694 
695 
696 
697 
698 
699 
700 
701 
102 
103 
704 
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707 
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712 
713 


struct list head 


kdev t 

unsigned long 
unsigned char 
unsigned char 
unsigned char 
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s list; 
s dev; 


/* Keep this first */ 


s blocksize; 


s_blocksize_bits; 


s_lock; 
s dirt; 


struct file system type *s type; 
struct super operations *s op; 
struct dquot operations *dq op; 


unsigned long 
unsigned long 
struct dentry 
wait queue head t 


struct list head 
struct list head 


struct block device *s hdev; 
struct list head 


union { 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
struct 
void 
ju 


/* 


* The next field is for VFS *only*. No filesystems have any business 
* even looking at it. 


minix sb info 
ext2 sb info 
hpfs sb info 
ntfs sb info 
msdos sb info 
isofs sb info 
nfs sb info 
sysv sb info 
affs sb info 
ufs sb info 
efs sb info 
shmem sb info 
romfs sb info 
smb sb info 
hfs sb info 
adfs sb info 
qnx4 sb info 
bfs sb info 
udf sb info 
ncp sb info 
usbdev sb info 


s flags; 
s magic; 
*s root; 
s walt; 


s_dirty; 
s_files; 


s mounts; 


/* dirty inodes */ 


minix sb; 
ext2 sb; 
hpfs sb; 
ntfs sb; 
msdos sb; 
isofs sb; 
nfs sb; 
sysv sb; 
affs sb; 
ufs sb; 
efs sb; 
shmem sb; 
romfs sb; 
smbfs sb; 
hfs sb; 
adfs sb; 
qnx4 sb; 
bfs sb; 
udf sb; 
nepfs sb; 
usbdevfs sb; 
*generic sbp; 


You had been warned. 


/* vfsmount(s) of this one */ 
struct quota mount options s dquot; /* Diskquota specific options */ 
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714 */ 
715 struct semaphore s vfs rename sem; /* Kludge */ 
716 


717  /* The next field is used by knfsd when converting a (inode number based) 


718 * file handle into a dentry. As it builds a path in the dcache tree from 

119 * the bottom up, there may for a time be a subpath of dentrys which is not 
720 * connected to the main tree. This semaphore ensure that there is only ever 
721 * one such free path per filesystem. Note that unconnected files (or other 
722 * non-directories) are allowed, but not unconnected diretories. 

723 */ 

124 struct semaphore s nfsd free path sem; 

725 


对 于 Ext2 文件 系统 ， 将 super block 结构 中 的 union 解释 为 一 个 ext2_sb_info 结构 ， 这 是 在 
include/linux/ext2, fs sb.h 中 定义 的 : 


27 /* 
28 * second extended-fs super-block data in memory 
29 */ 
30 struct ext2 sb info { 
31 unsigned long s frag size; /* Size of a fragment in bytes */ 
32 unsigned long s frags per block;/* Number of fragments per block */ 
33 unsigned long s inodes per block;/* Number of inodes per block */ 
34 unsigned long s frags per group;/* Number of fragments in a group */ 
35 unsigned long s blocks, per group;/* Number of blocks in a group */ 
36 unsigned long s inodes per group;/* Number of inodes in a group */ 
37 unsigned long s itb per group; /* Number of inode table blocks 
per group */ 
38 unsigned long s gdb count; /* Number of group descriptor blocks */ 
39 unsigned long s desc per block; /* Number of group descriptors 
per block */ 
40 unsigned long s groups count;  /* Number of groups in the fs */ 
4] struct buffer head * s sbh; /* Buffer containing the super block */ 
42 struct ext2 super block * s es; /* Pointer to the super block 
in the buffer */ 
43 struct buffer head ** s group desc; 
44 unsigned short s loaded inode bitmaps; 
45 unsigned short s loaded block bitmaps; 
46 unsigned long s inode bitmap number[EXT2 MAX GROUP LOADED]; 
47 struct buffer head * s inode bitmap[EXT2 MAX GROUP LOADED]; 
48 unsigned long s block bitmap number[EXT2 MAX GROUP LOADED]; 
49 struct buffer head * s block bitmap[EXT2 MAX GROUP LOADED]; 
50 unsigned long s mount opt; 
ol uid t s resuid; 
52 gid t s resgid; 
53 unsigned short s_mount_state; 
54 unsigned short s_pad; 
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56 
57 
58 
59 


336 
337 
338 
339 
340 
341 
342 
343 
344 
345 
346 
347 
348 
349 
350 
351 
352 
353 
354 
355 
356 
357 
358 
359 
360 
361 
362 
363 
364 
365 
366 
367 
368 
369 
370 
371 
372 
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int s addr per block bits; 
int s desc per block bits; 
int s inode size; 

int s first ino; 


Ja 


如 前 所 述 ，super_block 是 内 存 中 的 数据 结构 ， 其 内 容 通 常 ( 但 并 不 总 是 ) 来 自 上 基体 设备 上 特定 文 
件 系 统 的 超级 块 。 研 Ext2 文件 系统 而 言 ， 设 备 上 的 超级 鼎 为 ext2_super_block 结构 ， 定 义 于 
include/linux/ext2_fs.h 中 


/* 


* Structure of the super block 
*/ 
struct ext2 super block { 
__u32 s inodes count; 
u32 s blocks count; 
. u32 s r blocks count; 
u32 s free blocks count; 
. u32 s free inodes count; 
. u32 s first data block; 
u32 s log block size; 
832 s log frag size: 
. u32 s blocks per group; 
. u32 s frags per group; 
 .u32 s inodes per group; 
u32 s mtime; 
u32 s wtime; 
. ul6 s mnt count; 
 SÍ6 s max mnt count; 
.ul6 s magic; 
ul6 S state; 
..ul6 s errors; 
. ul6 s minor rev level; 
= u32 s lastcheck; 
u32 s checkinterval; 
__u32 s creator os; 
. u32 s rev level; 
ul6 s def resuid; 
. ul6 s def resgid; 
/* 


/* 
/*® 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
f 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 


Inodes count */ 

Blocks count */ 

Reserved blocks count */ 
Free blocks count */ 
Free inodes count */ 
First Data Block */ 
Block size */ 

Fragment size */ 

# Blocks per group */ 

# Fragments per group */ 
# Inodes per group */ 
Mount time */ 

Write time */ 

Mount count */ 

Maximal mount count */ 
Magic signature */ 

File system state */ 
Behaviour when detecting errors */ 
minor revision level */ 
time of last check */ 
time between checks */ 





max. 
OS */ 
Revision level */ 

Default uid for reserved blocks */ 
Default gid for reserved blocks */ 


These fieids are for EXT2 DYNAMIC REV superblocks only. 


Note: the difference between the compatible feature set and 


in the incompatible feature sei that the kernel doesn’ t 


know about, 


* 

* 

* 

* the incompatible feature set is that if there is a bit set 
* 

* it should refuse to mount the filesystem. 

* 
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313 * e2fsck's requirements are more strict; if it doesn t know 

314 * about a feature in either the compatible or incompatibie 

375 * feature set, it must abort and not try to meddle with 

376 * things it doesn’t understand... 

371 */ 

378 u32 s first ino; /* First non-reserved inode */ 
379 | ul6 s inode size; /* size of inode structure */ 

380 |. ul6 s block group nr; /* block group # of this superblock */ 
381 . u32 s feature compat; /* compatible feature set */ 

382 u32 s feature incompat; /* incompatible feature set */ 
383 . u32 s feature ro compat; /* readonly-compatible feature set */ 
384 |. u8 s uuid[16]; /* 128-bit uuid for volume */ 

385 char s volume name[16]; /* volume name */ 

386 char s last mounted[64] ; /* directory where last mounted */ 
387 | u32 s algorithm usage bitmap;  /* For compression */ 

388 /* 

389 * Performance hints. Directory preallocation should only 

390 * happen if the EXT2 COMPAT PREALLOC flag is on. 

391 x/ 

392 | u8 s prealloc blocks; /* Nr of blocks to try to preallocate*/ 
393 .. u8 s prealioc dir blocks; /* Nr to preallocate for dirs */ 

394 | ul6 s paddingl; 

395 __u32 s reserved[204] ; /* Padding to the end of the block */ 

396} ; 


这 个 数据 结构 的 定义 与 Ext2 RAMA AK, PRR. BEBE AILS 
构 的 内 容 与 下 面 ext2_read_super( ) 的 代码 相 二 参照 印证 ,再 回顾 一 下 以 前 读 过 的 代码 , 以 求 真 正 的 理解 。 
最 后 ， 我 们 来 看 ext2_read_super( ) 的 代码 。 这 个 函数 在 fs/ext2/super.c 中 ， 由 于 比较 长 ， 我 们 分 段 


[sys, mount( ) > do_mount( ) > get sb bdev( ) > read_super( ) > ext2 read. super( )] 


384 struct super block * ext2 read super (struct super block * sb, void * data, 
385 int silent) 


386 { 

387 struct buffer head * bh; 

388 struct ext2 super block * es; 

389 unsigned long sb block = 1; 

390 unsigned short resuid = EXT2 DEF RESUID; 
391 unsigned short resgid - EXT2 DEF RESGID; 
392 unsigned long logic sb block = l; 

393 unsigned long offset - 0; 

394 kdev t dev = sb-5s dev; 

395 int blocksize = BLOCK SIZE; 

396 int hblock; 

397 int db count; 

398 int i, j; 


. 528 . 





第 5 章 文件 系统 
一 一 a 


400 /* 

401 * See what the current blocksize for the device is, and 
402 * use that as the blocksize. Otherwise (or if the blocksize 
403 * is smaller than the default) use the default. 

404 * This is important for devices that have a hardware 
405 * sectorsize that is larger than the default. 

406 */ 

407 blocksize = get_hardblocksize (dev): 

408 if( blocksize == 0 || blocksize < BLOCK SIZE ) 

409 { 

410 blocksize = BLOCK SIZE; 

411 } 

412 

413 sh->u. ext2 sb.s mount opt = 0; 

414 if (!parse options ((char *) data, &sb block, &resuid, &resgid, 
415 &sb->u. ext2_sb.s mount opt)) 1 

416 return NULL; 

417 } 

418 

419 set_blocksize (dev, blocksize): 

420 

421 /* 

422 * If the superblock doesn’t start on a sector boundary, 
423 * calculate the offset.  FTXME(eric) this doesn't make sense 
424 * that we would have to do this. 

425 */ 

426 if (blocksize != BLOCK SIZE) 1 

427 logic sb block = (sb block*BLOCK SIZE) / blocksize; 
428 offset = (sb block*BLOCK SIZE) % blocksize: 

429 } 

430 

431 if (! (bh = bread (dev, logic sb block, blocksize))) { 
432 printk (“EXT2-fs: unable to read superblock\n’) : 

433 return NULL; 

434 } 


参数 sb 是 指向 super. block 数据 结构 的 指针 ， 在 调用 这 个 函数 之 前 对 该 结构 已 经 作 了 一 些 初始 化 ， 
例如 其 sdev 学 段 已 经 持 有 具体 设备 的 设备 号 。 但 是 ， 结 构 中 的 大 部 分 内 容 都 还 没有 设置 ， 而 这 里 要 
做 的 正 是 从 设备 下 读 入 超级 块 并 根据 其 内 容 设置 这 个 super_block 数据 结构 。 另 一 个 指针 data 的 使 用 ， 
则 央 文 件 系统 而 异 ， 对 于 Ext2 文件 系统 它 是 指向 一 个 表示 安装 可 选项 的 字符 串 。 至 于 参数 silent, W 
表示 仕 读 超级 块 的 过 程 中 是 否 详细 地 报告 出 错 信 息 。 

肯 先 是 确定 设备 上 记录 块 的 大 小 。Ext2 文件 系统 的 记录 块 人 小 AE 1K 字 节 ， 但 是 为 提高 读 写 
效率 也 可 以 采用 2K 学 节 或 AK 字 节 。 变 量 blocksize 先 设置 成 常数 BLOCK. SIZE, HU 1K 字 节 。 但 是 ， 
内 核 中 有 一 个 以 主 设备 号 为 下 标的 指针 数组 hardsect_size[ ]. 如 果 这 个 数组 中 相应 的 元 素 指向 另 个 以 
次 设备 号 为 下 标的 整数 数组 ， 其 中 提供 了 该 设备 的 记录 块 大 小 ， 并 且 这 个 数值 大 于 BLOCK, SIZE, N 
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以 此 为 准 。 这 样 ， 如 果 某 种 设备 上 的 记录 块 大 于 BLOCK_SIZE， 便 只 要 在 系统 初始 化 时 设置 这 个 数组 
中 的 相应 元 素 就 可 以 了 。 不 过 ， 从 hardsect size| | 中 读 时 应 通过 为 此 而 设 的 函数 get_handblocksize( ) 进 
行 。 此外， 在 人 懈 定 了 某 项 设备 的 记录 块 大 小 以 后 要 通过 set_blocksize( ) 将 确定 了 的 记录 块 大 小 写 何 到 这 
个 数组 中 去 ， 这 样 即使 开始 时 数组 是 空 的 也 会 慢 慢 地 得 到 设置 。 这 些 操作 的 逻辑 比较 简单 ， 我 们 就 不 
深入 阅读 这 两 个 函数 的 代 公 了 。 值 得 注意 的 是 BLOCK. SIZE 实际 上 是 记录 块 大 小 的 最 小 值 。 

另 一 个 函数 parse_options( ) 是 用 来 分 析 可 选项 字符 串 并 根据 其 内 容 设置 一 些 变量 。 每 种 文件 系统 
都 有 它 自己 的 parse_options( )， 所 以 这 些 函 数 都 是 静态 〈static) 水 数 ， 其 作用 域 只 是 同一 文件 ， 如 Ext2 
的 parse_options( ) 就 在 fs/ext2/super.c "P. PAL parse_options( ) 通 常 都 是 既 简 单 又 元 长 , 所 以 我 们 不 在 这 
里 烈 出 其 代码 了 。 

超级 块 通常 是 设备 上 的 1 号 记录 块 ( 即 第 2 个 记录 块 ;， 所 以 变量 sb block size 设置 为 1， 在 记录 
HADA BLOCK_SIZE 的 设备 上 其 迪 辑 块 写 logic sb block 也 是 1。 但 在 记录 块 大 于 BLOCK. SIZE 的 
设备 上 ， 由 十 超级 快 的 大 小 仍 为 BLOCK_SIZE， 就 要 通过 计算 来 确定 其 所 在 的 记录 块 ， 以 及 在 块 内 的 
位 移 。 此 时 虽然 仍 称 为 超级 “ 块 ”， 但 实际 上 只 是 记录 块 中 的 一 部 分 了 。 确 定 了 这 两 个 参数 以 后 ， 就 可 
以 通过 bread() 将 超级 块 所 在 的 记录 块 读 入 内 存 了 。 函数 bread ) 属 十 设备 驱动 的 范畴 , 读者 可 参阅 下 一 
章 中 的 有 关内 容 。 我 们 继续 往 下 看 (fs/ext2/super.c): 


[sys_mount( ) > do mount( ) > get sb bdev( ) > read_super( ) > ext2_read_super( )] 


435 /* 

436 * Note: s es must be initialized s_es as soon as possible because 
437 * some ext2 macro-instructions depend on its value 

438 */ 

439 es = (struct ext2 super block *) (((char *)bh->b_data) + offset); 
440 sb->u. ext2_sb. s_cs = es; 

441 sb-^s magic = lel6 to cpu(es-5s magic); 

442 if (sb-^s magic !- EXT2 SUPER MAGIC) { 

443 if (!silent) 

444 printk ("VFS: Can't find an ext2 filesystem on dev ^ 

445 "$s. Xn", bdevname (dev) ; 

446 failed mount: 

447 if (bh) 

448 brelse (bh) ; 

449 return NULL; 

450 } 

451 if (1e32 to cpu(es->s_rev_level) == EXT2 GOOD OLD REV && 

452 (EXT2 HAS COMPAT FEATURE (sb, ~OU) || 

453 EXT2 HAS RO COMPAT FEATURE(sb, ^0U) || 

454 EXT2 HAS TNCOMPAT FEATURE (sb, ^ 0U))) 

455 printk(”EXT2-fs warning: feature flags set on rev 0 fs, ^ 

456 "running e2fsck is recommended Wn); 

457 /* 

458 * Check feature flags regardless of the revision level, since we 
459 * previously didn t change the revision level when setting the flags, 
460 * so there is a chance incompat flags are set on a rev 0 filesystem. 
461 */ 
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if ((i = EXT2 HAS TNCOMPAT FEATURE(sb, "EXT2 FEATURE INCOMPAT SUPP))) { 


j 


printk( EXT2-fs: %s: couldn't mount because of ^ 
“unsupported optional features (%x). \n”, 
bdevname (dev), i); 

goto failed mount; 


if (!(sb->s flags & MS RDONLY) && 


) 
sb-»s blocksize bits = 


(i = EXT2 HAS RO COMPAT FEATURE(sb, "EXT2 FEATURE RO COMPAT SUPP))) { 


printk(“EXT2-fs: %s: couldn’ t mount RDWR because of ” 
“unsupported optional features (%x). Wn", 
bdevname(dev), i); 

goto failed mount; 


1e32 to cpu(EXT2 SB(sb)-5s es 5s log block size) + 10; 


sb->s_blocksize = 1 << sb-5s blocksize bits; 
if (sb->s_blocksize !- BLOCK SIZE && 


(sb-^s blocksize == 1024 || sb-^s blocksize == 2048 || 
sb-^s blocksize == 4096)) { 
/* 

* Make sure the blocksize for the filesystem is larger 
* than the hardware sectorsize for the machine. 

*/ 
hblock = get hardblocksize (dev); 

if( (hblock !- 0) 

&& (sb-^s blocksize € hblock) ) 
{ 


printk(“EXT2-fs: blocksize too small for device. M^); 


goto failed_mount; 


} 


brelse (bh); 
set blocksize (dev, sb >s_blocksize) ; 


logic sb block = (sb block*BLOCK SIZE) / sb->s blocksize; 


offset = (sb block*BLOCK SIZE) % sb—^s blocksize: 
bh = bread (dev, logic sb block, sb->s blocksize); 
if(!bh) { 
printk (CEXT2-£s: Couldn't read superblock on ^ 
"2nd try. m^); 
goto failed mount; 


j 


es = (struct ext2 super block *) (((char #)bh->b data) + offset); 


Sb->u, ext2 sb.s es = es; 

if (es-^s magic != lel6 to cpu(EXT2 SUPER MAGIC)) { 
printk ("EXT2-fs: Magic mismatch, very weird !Wn^); 
goto failed mount; 
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函数 bread( ) 返 回 -一 个 buffer head 结构 指针 bh, Mi bh-»data 就 指 问 缓冲 区 ，offset 则 为 超级 块 的 起 
点 在 缓冲 区 中 的 位 移 。 对 于 Ext2 文件 系统 ， 从 设备 读 入 的 超级 块 为 个 ext2_super_block 数据 结构 。 
从 439 行 以 后 ， 指 针 es 就 指向 这 个 数据 结构 。 另 一 方面 ，Ext2 文件 系统 采用 “little ending”， 所 以 一 
般 而 言 对 于 超级 块 中 的 整数 都 要 通过 le32_to_cpu( ) 或 le16_to_cpu( ) 变 换 成 CPU 所 采用 的 制式 。 不 过 ， 
由 于 1386 结构 本 来 就 是 采用 “little ending”， 所 以 这 些 般 数 实际 上 不 起 作用 。 这 样 ， 结 合 前 面 二 个 数据 
结构 的 定义 ， 这 个 泌 数 中 的 大 部 分 代码 都 是 不 难 理解 的 ， 我 们 只 择 虚 讲 儿 个 问题 。 

从 475 行 至 508 行 是 对 记录 块 大 小 的 修正 。 前 面 我 们 已 经 确定 了 设备 上 的 记录 块 大 小 ， 但 是 那 未 
必 是 来 自 设备 本 身 的 第 ““ 手 信息 。 现 在 已 经 有 了 来 白 该 设备 的 超级 块 ， 则 超级 块 中 提供 的 信息 可 能 更 
为 准确 。 如 果 发 现 超级 块 中 提供 的 记录 块 大 小 与 原来 认为 的 不 同 ( 只 能 大 ， 不 能 小 )， 则 -来 要 更 正 
hardsect size[ ] 数 组 中 的 内 容 ， 二 来 要 把 已 经 读 入 的 buffer head 结构 连同 缓冲 区 释放 〔 包 497 行 ) 而 根 
据 新 计算 的 参数 再 通过 bread( ) 读 入 一 次 。 

读者 也 许 会 感到 奇怪 , 既然 原来 的 参数 不 对 , 那 怎 么 根据 不 正确 的 参数 读 入 的 超级 块 倒是 对 的 呢 ? 
既然 已 经 读 入 的 超级 块 是 对 的 ， 那 何必 又 重新 读 : 遍 昵 ?原因 就 在 于 不 管 原来 的 参数 是 否 正 确 ， 在 
sb block 等 于 1 的 前 提 下 计算 出 来 的 logic_sb_block 和 offset 只 有 两 组 结果 。 当 sb->s_blocksize 大 于 
BLOCK, SIZE Hj, logic sb block 总 是 0 而 offset 总 是 BLOCK_SIZE， 而 与 sb->s_blocksize 的 其 体 数 值 
无 关 。 当 sb->s_blocksize 等 于 BLOCK_SIZE 时 ， 则 logic sb block 为 1 而 offset 为 0。 所以， 只 娄 在 记 
录 块 大 小 等 于 BLOCK_SIZE 时 将 超级 块 放 在 第 二 块 《〈 块 扎 为 1)， 而 在 记录 块 大 于 BLOCK, SIZE 时 ， 
则 除 将 超级 块 放 在 第 二 块 的 开头 处 以 外 再 在 第 一 块 中 位 移 为 BLOCK_SIZE 处 放 上 一 个 副本 ， 就 不 会 错 
J. 这 里 重新 读 一 遍 , 只 不 过 是 让 缓冲 区 中 含有 整个 记录 块 , 而 不 只 是 超级 块 而 已 。 同 时 , 在 super. block 
结构 中 也 保留 着 两 个 指针 ， 一 个 指向 缓冲 区 中 超级 块 的 起 点 〈 见 440 行 和 504 行 )， 另 一 个 则 指向 缓冲 
区 本 身 〔( 见 538 行 )。 

记录 块 的 大 小 是 个 重要 的 参数 。 从 读 / 写 的 效率 考虑 ， 记 录 块 大 一 些 较 好 ， 但 是 ， 记 录 块 人 了 往 
往 造 成 空间 的 浪费 ， 因 为 记录 块 是 设备 上 存储 空间 分 配 的 单位 。 据 统计 ， 在 Unix( 以 及 Linux) 环 境 下 大 
多 数 文件 都 是 比较 小 的 ， 这 样 ， 浪 费 的 白 分 之 比 束 殉 大 了 。 权 衡 之 下 ，Ext2 选择 DK 学 节 为 默认 的 记 
录 块 大 小 ， 但 是 也 可 以 在 格式 化 时 给 定 更 大 的 数值 ， 这 就 是 曲面 有 关 记 录 块 人 小 的 处 理 的 来 历 。 由 十 
时 间 上 和 空间 上 的 效率 难于 兼顾 ， 有 些 文件 系统 进一步 把 记录 块 划 分 成 才干 “片断 ”(fragment)， 当 需 
要 的 空间 较 小 时 就 以 “片断 ”为 分 配 单 位 ，Ext2 也 准备 采用 这 项 技术 ， 并 上 用 在 数据 结构 等 方面 为 此 作 
好 了 准备 《所 以 超级 块 中 有 “片断 大 小 ”等 字段 )， 伺 是 从 总 体 来 说 尚未 实现 ， 因 此 日前 “ 厂 断 大 小 ” 
总 是 等 于 “记录 块 大 小 ”。 

超级 块 的 内 容 反映 了 按 特定 格式 建立 在 特定 设备 上 的 文件 系统 多 方 而 的 信 以 ， 主 要 是 结构 和 管理 
两 方面 的 信息 。 其 中 结构 方面 的 信息 是 与 具体 文件 系统 的 格式 密切 相关 的 ， 所 以 要 了 解 Ext2 义 件 系统 
的 格式 才能 理解 其 超级 块 的 内 容 。 以 前 提 伸 过 ，Ext2 文件 系统 的 第 一 个 记录 块 为 引导 块 ， 第 二 个 记录 
块 为 超级 块 ， 然 后 是 索引 节点 区 ， 接 着 是 数据 区 。 但 是 ， 那 只 是 从 概念 上 讲 ， 是 信人 简化 了 的 ， 实 际 
上 要 复杂 得 多 。 现 代 的 磁盘 驱动 器 都 是 多 片 的 ， 所 以 不 同 玲 面 上 的 相同 磁道 合 在 一 起 就 形成 了 “村 面 ” 
(cylinder) 的 概念 。 从 磁盘 读 出 多 个 记录 块 时 ， 如 果 是 从 同 柱 和 而 中 读 出 就 比较 快 ， 因 为 在 这 种 情况 
下 不 党 要 移动 磁头 《实际 上 是 磁头 组 )。 互 相连 续 的 记录 块 实际 上 分 布 在 同一 柱 面 的 各 个 集 面 上 ， 只 有 
在 个 柱 徊 用 满 后 方 进入 下 一 个 术 面 。 所 以 ， 在 许多 文件 系统 中 都 把 整个 设备 划分 成 阁 十 “ 柱 面 组 ”， 
将 反映 着 盘面 存储 空间 的 组 织 与 管理 的 信息 分 散 后 就 近 存 储 于 各 个 柱 面 组 中 。 相 比 之 下， 早期 的 文件 
系统 往往 将 这 些 信息 集中 存储 在 一 起 ， 使 得 磁头 在 义 件 访问 时 来 回 “ 疲 十 奔 命 ”而 降低 了 效率 。 

但 是 ， 柱 而 组 的 划分 也 带 来 了 一 些 新 的 、 附 如 的 要 求 。 首 先是 关于 这 些 柱 和 而 组 本 里 的 结构 信息 ， 


- 532. 


第 5 章 文件 系统 
一 一 一 一 


如 此 号 要 用 一 些 记 录 块 来 保存 所 有 的 柱 而 组 的 描述 ， 即 所 谓 “ 组 描述 结构 ” (group descriptor)。 另 一 - 方 
耐 ， 有 些 信息 是 对 于 整个 设备 的 而 不 只 是 针对 -个 柱 面 组 的 ， 所 以 不 能 把 它 拆散 ， 册 只 能 重复 地 存储 
于 每 个 性 面 组 小 。 从 胡 一 个 角度 来 讲 ， 将 某 些 重 此 的 信息 重复 存储 十 每 个 柱 而 组 为 这 些 信 息 提 供 了 后 
备 ， 从 而 增加 了 可 靠 性 。 对 于 文件 系统 来 说 ， 最 重 鉴 的 莫 过 于 其 超级 块 了 ， 所 以 一 些 文件 系统 的 设计 
慨 求 设备 上 不 管 哪 一 个 记录 块 、 哪 一 个 盘面 、 哪 一 个 磁道 坏 了 部 仍然 能 恢复 其 超级 块 ( 通 过 运行 fsck )。 
ExQ UH] TAI, BELA PRN “REINA” IN PRN "inihi", 并 上 及 将 超级 块 和 所 有 的 块 组 描 
述 结构 重复 存储 十 每 个 块 组 。 此 外 ，Ext2 道 过 “位 图 ”来 符 埋 他 个 块 给 中 的 记 逮 块 和 索引 节点 ， 所 以 
在 每 个 块 组 中 有 两 个 位 图 ， -个 用 半 记 录 块 ， 个 用 十 索 相 节点 。 这 样 ，Ext2 文件 系统 的 格 代 就 灾 成 
了 如 图 5.5 所 示 的 形式 。 

图 5.5 中 的 组 描述 块 为 记录 着 全 部 组 描述 结构 的 记录 块 ， 具 体 的 块 数 取 决 十 设备 的 大 小 。 记 录 块 
位 图 则 是 本 块 组 的 位 图 (每 1 位 对 应 着 块 弓 中 的 一 个 记录 块 ，1 表示 已 分 配 ，0 表示 空闲 )， 占 用 的 块 
数 取决 于 块 组 的 大 小 。 当 记录 块 人 小 为 1K 字 节 而 块 组 的 大 小 为 8192 时 ， 该 位 图 恰好 占 一 个 记录 块 。 
用 于 索引 节点 的 记录 块 数量 取决 于 文件 系统 的 参数 ， 而 索引 节点 的 位 图 则 不 会 超出 一 个 记录 块 。 


ay Sate EK 
Ww 索 5| H AA [x 





MERERI. 
图 5.5 Ext2 文 件 系统 格式 示意 图 


当 整 个 设备 上 只 有 一 个 块 组 时 ， 就 简化 成 了 以 前 讲 过 的 那 种 结构 。Ext2 的 块 组 描述 结构 定义 十 


include/linux/ext2, fs.h: 


145 /* 
146 * Structure of a blocks group descriptor 
147 */ 
148 struct ext2 group desc 
149 | 
150 |. .u32 bg block bitmap; /* Blocks bitmap block */ 
151 u32 bg inode bitmap; /* lnodes bitmap block */ 
152 . u32 bg inode table; /* Inodes table block */ 
153 _..ul6 . bg free blocks count; /* Free blocks count */ 
154 . ul6 bg free inodes count; /* Free inodes count */ 
155 ul6 bg used dirs count; /* Directories count */ 
156 ul6 bg pad; 
157 __u32 bg reserved([3]; 
158 — ]i 

超级 块 的 内 容 可 以 用 “/sbin/tune2fs -1”、”sbin/dumpe2fs” 等 命令 来 显示 。 下 而 我 们 通过 - -个 实例 米 


看 个 位 檬 设备 的 组 织 ， 以 便 读者 加 深 埋 解 。 这 个 设备 就 是 笔者 机 器 上 的 /dev/hda2。 先 用 “tune2fs 11 
idevihda2” 观 察 该 设备 上 超级 块 的 内 容 ， 我 们 关心 的 有 下 面 这 些 ; 
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Inode count: 386528 
Block count: 1540097 
Reservad block count: 71011 
Free blocks: 221060 
First block: 1 
Block size: 1024 
Blocks per group: 8192 
Inodes per group: 2056 
Inode blocks per group: 257 


让 我 们 看 看 这 些 数字 是 怎样 互相 联系 的 。 

首先 ， 这 个 设备 土 呆 用 的 记录 块 数量 为 1540097， 也 就 是 大 约 1.5G FE CERTE INEST FES IR PR 
少量 记录 块 )， 而 每 个 块 组 的 大 小 为 8192， 所 以 设备 上 共有 1540097+8192=188 ARH. {Hit 8192X 
188=1540096， 这 多 余 的 一 个 记 菏 块 就 是 引导 块 ， 而 第 一 个 实际 属于 该 文件 系统 的 记录 块 的 块 与 为 1。 
其 次 ， 每 个 块 组 含有 2056 个 索引 节点 ， 所 以 总 共有 2056X188-386528 个 索引 节点 。 出 于 记录 块 大 小 
为 1K 字 节 ， WAS RADA 128 字 节 ， 所 以 每 个 记录 块 可 容纳 8 个 索引 节点 ， 这 样 ， 每 个 块 组 将 
2056 二 8=257 个 记录 块 用 于 索引 节点 。 上 月 前 设备 上 尚 有 221060 个 空 痢 的 记录 块 ， 但 是 其 中 77011 个 是 
保留 的 ， 保 留 的 记录 抉 道 常 占 总 容量 的 5% 左右 ， 当 某 些 记录 块 损坏 时 就 用 保留 的 记录 块 作为 蔡 换 。 

AUR “df” 命令 来 印证 一 下 ， 显 示 的 结果 表明 该 设备 共有 1490088 个 IK 字 节 的 记录 抉 ， 其 中 已 
用 去 1269028 个 ， 尚 有 144049 个 记录 块 。 这 些 数字 怎样 与 上 面 的 数字 机 联系 呢 ? 这 里 的 1490088 就 是 
设备 上 真正 用 于 数据 块 的 记录 块 数 量 ， 也 就 是 每 个 块 组 有 1490088+188=7926 个 数据 块 。 我 们 知道 得 
个 块 组 还 有 257 个 记录 块 用 于 索引 节点 ， 这 样 - 共 症 8183 4, WA 9 个 记录 块 和 干什么 用 了 了 呢 ? 请 看 : 

| (超级 块 ) 十 6( 块 组 描述 结构 ) 十 1 CHGREMUÉED 十 1 (索引 节点 位 图 ) =9 

每 个 Ext2 记录 块 描述 结构 的 大 小 是 32 宁 节 ， 每 1K 字 和 的 记录 块 能 容纳 32 个 块 描述 结构 ， 因 此 
HÆ (18832) 26 MURE (AARE) 用 于 块 组 描述 结构 。 

再 看 可 分 配 使 用 的 记录 块 数量 。 总 共 1490088 个 记录 块 , 已 用 去 1269028 个 , 应 该 还 有 221060 个 ， 
怎么 说 只 剩 144049 个 了 了 呢 ? 这 是 因为 有 77011 个 记录 块 是 保留 的 ， 而 221060 一 77011=144049。 

最 后 还 可 以 通过 命令 “dumpe2fs ”/dev/hda2" 观 察 每 个 块 组 的 详情 。 

现在 读者 对 Ext2 文件 系统 的 结构 已 经 有 了 个 比较 直观 的 了 解 ， 再 回 过 去 读 ext2_read_super( ) 中 余 
下 的 代码 就 容易 一 些 了 。 

代码 中 用 到 的 一 些 宏 定 义 基 本 上 是 不 言 自明 的 , XX BER ALIE. 在 ext2_sb_info 结构 中 的 数组 
s_inode_bitmap_number[ ] 和 s block numer[ ] 者 是 固定 大 小 的 ， 县 体位 图 数组 也 是 国定 大 小 的 ， 大 小 为 
EXT2 MAX GROUP_LOADED。 常 数 EXT2_MAX_GROUP_LOADED 在 include/linux/ext2_fs.h 中 定 
义 为 8, 与 块 组 的 总 数 一 比 只 占 很 小 的 比例 ,所 以 运行 时 并 不 是 将 所 有 块 组 的 位 图 都 净 入 到 这 些 数组 中， 
而 是 只 装 入 其 中 很 小 一 部 分 ， 根 据 具体 运行 的 需要 周转 。 这 里 只 是 把 这 些 数组 以 及 有 关 的 当量 都 初始 
化 成 空白 ， 也 并 没有 为 位 图 数组 本 续 分 配 空 间 。 

继续 往 下 看 ext2_read_super( )ff f C58: 


[sys mount( ) > do mount( ) > get sb. bdev( ) > read_super( ) > ext2 read super( )] 


510 if (1e32 to cpu(es-^s rev level) == EXI2 GOOD OLD REV) [ 
511 sb->u. ext2 sb.s inode sive = EXT2 GOOD OLD INODE STZE; 
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sb->u, ext2_sb.s_first_ino = EXT2 GOOD OLD FIRST INO; 
} eise { 
Sb->u, ext2 sb.s inode size = lel6 to_cpu(es->s_inode size): 
sb~>u. ext2 sb.s first ino = le32 to cpu(es->s first ino); 
if (sh->u. ext2 sb. s_ inode size != EXT2 GOOD OLD INODE SIZE) { 
printk (CEXT2-fs: unsupported inode size: %d\n”, 
sb->u, ext2 sb.s inode size); 
goto failed mount; 


Sb-?u.ext2 sb.s frag size = EXT2 MIN FRAG SIZE << 
le32 to cpu(es-5s log frag size); 

if (sb-^»u.ext2 sb.s frag size) 

sb-^u.ext2 sb.s frags per block = sb->s blocksize / 

sb->u. ext2 sb.s frag size; 

else 

sb-^s magic = 0; 
sb-»u.ext2 sb.s blocks per group = 1e32 to cpu(es-5s blocks per group); 
Sb->u, ext2 sb.s frags per group = le32 to cpu(es— s frags per group); 
sb->u. ext2 sb.s inodes per group = le32 to, cpu(es-^s inodes per. group); 
Sb->u. ext2 sb.s inodes per block = sb-5s blocksize / 

EXT2 INODE STZE(sb); 
sb-^u.ext2 sb.s itb per group = sb-^u.ext2 sb.s inodes per group / 
sb-^u.extZ sb.s inodes per block; 
sb-^u.ext2 sb.s desc per block = sb->s blocksize / 
sizeol (struct ext2 group desc); 

sb->u. ext2 sb.s sbh = bh; 
if (resuid != EXT2 DEF RESUID) 

Sb-^u.ext2 sb.s resuid = resuid; 
else 

sb-?u. ext2 sb.s resuid = 1el6 to cpu(es-^s def resuid); 
if (resgid != EXT2 DEF RESGID) 

sb-2u.extZ sb.s resgid = resgid; 
else 

sb-»u.ext2 sb.s resgid ~ lel6 to cpu(es-?s def resgid); 
sb-?u.ext2 sb.s mount state = lei6 to cpu(es-^s state); 
sb->u. ext2 sb.s addr per block bits = 

log2 (EXT2 ADDR PER BLOCK (sb)); 
Sb-?u. ext2 sb.s desc per block bits = 

log2 (EXT2 DESC PER BLOCK(sb)); 
if (sb-^s magic !- EXT2 SUPER MAGIC) | 

if (!silent) 

printk (VFS: Can't find an ext2 filesystem on dev ” 
"ibs- \n”, 
bdevname (dev) ) ; 

goto failed mount; 
} 
if (sb->s_blocksize != bh->b size) { 
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if (!silent) 
printk ("VFS: Unsupported blocksize on dev ^ 
“%s. Xn", bdevname (dev) ) ; 
goto failed mount; 


} 


if (sb->s_blocksize != sb->u, ext2 sb.s frag size) { 
printk ('EXT2-fs: fragsize %lu !- blocksize %lu (not supported yet) \n’, 
sb-^u.ext2 sb.s frag size, sb->s_blocksize) ; 
goto failed mount; 


} 


if (sb->u. ext2 sb. s blocks per group > sb->s_blocksize * 8) | 
printk (“EXT2-fs: #blocks per group too big: %lu\n’, 
sb->u. ext2_sb. s blocks per group); 
goto failed mount; 
j 
if (sb->u. ext2_sb.s frags per group > sb-^s blocksize * 8) { 
printk ('EXT2-fs: #fragments per group too big: %lu\n’, 
sb-»u.ext2 sb.s frags per group); 
goto failed mount; 
j 
if (sb-^u.ext2 sb.s inodes per group > sb->s_blocksize * 8) | 
printk (“EXT2-ts: &inodes per group too big: %lu\n’, 
sb—>u. ext2 sb.s inodes per group); 
goto failed mount; 


} 


sb->u. ext2 sb.s groups count = {le32 to cpules->s blocks count) - 
le32 to cpu(es->s_first_data_block) + 
EXT2 BLOCKS PER GROUP(sb) - 1) / 
EXT2 BLOCKS PER GROUP (sb); 
db count = (sb->u. ext2 sb.s groups count + EXT2 DESC PER BLOCK (sb)-1) / 
EXT2 DESC PER BLOCK (sb) ; 
sb->u. ext2 sb.s group desc = 
kmalloc (db count * sizeof (struct buffer head *), GFP KERNEL); 
if (sb->u. ext2 sb.s group desc == NULL) { 
printk ('EXT2-fs: not enough memoryWM ^); 
goto failed mount; 
} 
for (i = 0; i € db count; i++) { 
sb->u, ext2 sb.s group desc[i] = bread (dev, logic sb block + i + 1, 
sb->S blocksize); 
if (!sb—u. ext2 sb.s group desclil) | 
for Cj = 0; j< i; j++) 
brelse (sb->u. cxt2_sb.s group desc[j]); 
kfree(sb-»u.ext2 sb.s group desc); 
printk (“FXT2-fs: unable to read group descriptors W^); 
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607 goto failed mount; 

608 } 

609 } 

610 if (lexi2 check descriptors (sb)) | 

611 for (j = 0; j < db count; j++) 

612 brelse (sb->u. ext2 sb.s group desc[j]); 

613 kfree(sb-^u.ext2 sb.s group desc): 

614 printk (CEXT2-fs: group descriptors corrupted !Wn^); 
615 goto failed mount; 

616 } 

617 for G =0; i< EXT2 MAX GROUP LOADED; i++) { 

618 sb->u. ext2 sb.s inode bitmap number[i] = 0: 

619 sb->u. ext2_sb. s_inode bitmap[i] = NULL; 

620 sb-^u.ext2 sb.s block bitmap number[i] = 0; 

621 Sb->u. ext2 sb.s block bitmap[i] = NULL: 

622 } 

623 sb-?u. ext2_sb. s_loaded_inode_bitmaps = 0; 

624 sb->u. ext2_sb.s loaded block bitmaps = 0; 

625 sb->u. ext2_sb. s gdb count = db count: 

626 /* 

627 * set up enough so that it can read an inode 

628 */ 

629 sb->s_op = &ext2 sops; 

630 sb->s root = d_alloc_root (iget (sb, EXT2 ROOT INO)); 
631 if (!sb->s_root) { 

632 for (i = 0; i < db count; i++) 

633 if (sb->u. ext2_sh. s_group desc[i]) 

634 brelse 《sb->u. ext2_sb.s group desc[il); 
635 kfree(sb-^u.ext2 sb.s group desc); 

636 brelse (bh); 

637 printk (“EXT2-fs: get root inode failedWn^); 
638 return NULL; 

639 } 

640 ext2 setup super (sb, es, sb->s_ flags & MS RDONLY); 
641 return sb; 

642 } 


ABUS RUARLESE IK, MIJEASSLAEGSET er BA MMR, STRATA LEE RBIS, dU 
只 注意 其 尾部 。 

超级 块 只 是 反映 具体 设备 上 文件 系统 的 组 织 和 管理 的 信息 ， 调 并 不 涉及 该 文件 系统 的 内 容 ， 设 备 
“RAK” BUSES VF ATTHA TOT RSE KERERE DUE RHR MA 

个 索引 节点 ， 其 节点 号 必然 存在 于 该 文件 所 在 的 目录 项 之 中 ， 唯 有 根 月 录 的 索引 节点 号 是 固定 的 ， 

ABBA EXT2_ROOT_INO， 即 2 史 索 引 节 点 。 代 码 中 的 第 598 行 先 通过 iget( ) 将 这 个 索引 节点 读 入 内 
存 并 为 之 建立 inode 数据 结构 ， 册 通过 d_alloc_root( ) 在 内 存 中 为 之 建立 起 一 个 dentry 数据 结构 ， 并 使 
super. block 结构 中 的 指针 s root 指向 这 个 dentry 结构 。 这 样 ， 通 向 这 个 文件 系统 的 途径 就 可 以 建立 起 
KT. eX d_alloc_root() 的 代码 见 下 
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[sys_mount( )>do_mount( )»get sb bdev( ) > read_super( ) > ext2 read super( ) > d_alioc_root( )] 


672 
673 
674 
675 
676 
677 
678 
679 
680 
681 
682 
683 
684 
685 
686 
687 
688 
689 
690 
691 
692 
693 
694 


/*¥ 

* d alloc root - allocate root dentry 

* @root_inode: inode to allocate the root for 

* 

* Allocate a root (//^) dentry for the inode given. The inode is 

* instantiated and returned. *NULL is returned if there is insufficient 
* memory or the inode passed is %NULL. 


*/ 


struct dentry * d alloc root(struct inode * root inode) 


{ 


struct dentry *res = NULL; 


if (root inode) { 
res = d alloc(NULL, &(const struct qstr) { "/^, 1, 0 }); 
if (res) | 
res-»d sb = root inode->i_sb; 
res-?d parent = res; 
d instantiate(res, root inode); 


} 


return res; 


} 


a, REMAINS ER EH, TB LIESS Bat. MA, HR Boios. 
而 为 根 月 录 建 立 的 dentry 数据 结构 则 都 以 “/” 为 名 。 代 码 中 的 &(const struct qstr) { “/” , 1,0 } 表 不 一 


个 qst 结构 指针 ， 它 所 指向 的 qstr 结构 为 { “/”, 1,0 }， 即 节点 名 为 “/”， 节 点 名 长 度 为 1; 数据 结构 


的 内 容 为 当量， 不 允许 改变 。 

最 后 《640 行 ) 是 调用 ext2_setup_super( ) 设 置 一 些 与 管理 有 关 的 信息 ， 包括 此 次 安装 的 时 间 以 及 
递增 安装 计数 ， 当 安装 计数 达到 某 个 最 痰 值 时 ， 就 应 该 对 这 个 文件 系统 运行 e2fsck DLA D. AT 
方面 ， 由 于 每 安装 一 次 ， 超 级 块 的 内 容 就 -- 定 有 些 变化 〈 至 少 是 安装 计数 )， 所 以 要 将 超级 块 的 缓冲 区 
标志 记 成 “及 ”。 函 数 ext2_setup_super( ) 的 代码 在 fs/ext2/superc 中 ， 代 码 很 简单 ， 我 们 就 不 解释 了 ， 
请 读者 日 行 阅读 。 


[sys mount( ) > do mount( ) > get sb bdev( ) > read. super( ) > ext2 read super( ) > ext2 setup super()] 


283 
284 
285 
286 
287 
288 
289 
290 


static int ext2 setup super (struct super block * sb, 
struct ext2 supor block * es, 
int read only) 


int res = 0; 
if (1e32 to cpu(es-^?s rev level) > EXT2 MAX SUPP REV) 1 
printk (“EXT2-fs warning: revision level too high, 
"forcing read-only mode\n’) ; 


Ld 
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291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 


308 
309 
310 
311 
312 
313 
314 
315 
316 
317 
318 
319 
320 
321 
322 
323 
324 
320 
326 
327 
328 
329 
330 
331 
332 
333 
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res = MS RDONLY; 
} 
if (read only) 
return res; 
if (! (sb »u.ext2 sb.s mount state & EXT2 VALID FS)) 
printk (EXT2-fs warning: mounting unchecked fs, 
"running e2fsck is recommended W^); 
else if ((sb-»u.ext2 sb.s mount state & EXT2 ERROR FS)) 
printk (CEXT2-fs warning: mounting fs with errors, 
"running e2fsck is recommended\n’) : 
else if (( s16) lel6 to cpu(es- s max mnt count) >= 0 && 
lel6 to cpu(es-^s mnt count) >= 
(unsigned short) (  s16) lel6 to cpu(es-^s max mnt count)) 
printk (CEXT2-fs warning: maximal mount count reached, ” 
“running e2fsck is recommended\n’) : 
else if (1e32 to cpu(es 5s checkinterval) && 


(1e32 to cpu(es-^s lastcheck) + le32 to cpu(es ^s checkinterval) 


<= CURRENT TIME)) 
printk (CEXT2-fs warning: checktime reached, 
"running e2fsck is recommended\n’) ; 
es-^s state = cpu to lel6(1el6 to cpu(es-^s state) & “EXT2 VALID FS); 
if (!( _s16) lel6 to cpu(es ^s max mnt count)) 
es:2s max mnt count = (  s16) cpu to lel6(EXT2 DFL MAX MNT COUNT) ; 
es-^s mnt count-cpu to lel6(lel6 to cpu(es-^s mnt count) + 1); 
es->s_mLime = cpu to le32(CURRENT TIME); 
mark buffer dirty(sb >u. ext2_sb.s sbh); 
sb-^s dirt = 1; 
if (test opt (sb, DEBUG)) 
printk ( [EXT II FS s, 9s, bs=%lu, fs-%lu, gc=%lu, 
"bpg-*lu, ipa %lu, mo-*041x]Wn^, 
EXTZFS VERSION, EXT2TS DATE, sb->s_blocksize, 
sb->u. ext2 sb.s frag size, 
sb-»u. ext2 sb.s groups count, 
EXT2 BLOCKS PER GROUP (sb), 
EXT2 INODES PER GROUP (sb), 
Sb->u. ext2 sb. s mount opt); 


^H 


&ifdef CONFIG EXT2 CHECK 


if (test opt (sb, CHECK) ( 
ext2 check blocks bitmap (sb); 
ext2 check inodes bitmap (sb); 


j 


Hendif 


return res: 


至 此 ，ext2_read_super( ) 的 工作 就 全 部 完成 了 ， 孙 数 返回 指向 该 super_block 数据 结构 的 指针 。 
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55 文件 的 打开 与 关闭 


用 户 进程 在 能 够 读 / 号 一 个 文件 之 前 必须 要 先 “ 打 开 ” 这 个 文件 。 对 文件 的 读 / 写 从 概念 上 说 龙 
一 种 进程 与 文件 系统 之 间 的 一 种 “有 连接 ” 道 信 ， 所 谓 “ 打 开 文件 ”实质 上 就 是 住 进 程 与 文件 之 间 建 
立 起 连接 ， 而 “打开 文件 号 ”就 惟一 地 标识 着 这 样 一 个 连接 。 不 过 ， 严 属意 义 上 的 “连接 ”意味 者 一 
个 独立 的 “上 上 下文” 如 果 一 个 进程 与 某 个 目标 之 问 重 复 建立 起 多 个 连接 ， 则 竺 个 连接 部 应 该 中 互相 独 
立 的 。 在 文件 系统 的 处 理 中 ， 每 当 个 进程 重复 打开 同一 个 文件 时 就 建立 起 个 由 fle 数据 结构 代表 
的 独立 的 上 上 文 。 通 常 ， 一 个 file 数据 结构 ， 即 一 个 读 / 写 文件 的 + 下 文 ， 都 由 一 个 “打开 文件 号 ” 
加 以 标识 ， 但 是 通过 系统 调用 dup( ) 或 dup2( ) 却 可 以 使 同一 个 file 结构 对 应 到 多 个 “打开 文件 号 。” 

打开 文件 的 系统 油 用 是 open( )， 在 内 核 中 通过 sys open ) 实 现 ， 其 代码 在 fs/open.c 中 : 





743 asmlinkage long sys_open(const char * filename, int flags, int mode) 
744 { 

745 char * tmp; 

746 int fd, error; 

747 

748 #if BITS PER LONG != 32 

149 flags |= O_LARGEFLLE; 

750 #endif 

751 tmp = getname (filename) ; 
752 fd = PTR_ERR(tmp) ; 

753 if (!TS ERR(tmp)) | 

754 fd = get unused fd( ); 
755 if Gd >= 0) 1 

756 struct file *f = filp open(tmp, flags, mode); 
757 error = PTR ERR(f); 
758 if (IS ERR(£)) 

159 goto out error; 
760 fd install(fd, 1); 
761 } 

762 out: 

763 putname (tmp) ; 

764 } 

765 return fd; 

766 

767 out_error: 

768 put unused fd(fd); 

169 fd - error; 

770 goto out; 

mi 3 


调用 参数 filename 实际 上 是 文件 的 路 径 名 (绝对 路 径 名 或 相对 路 径 名 ); mode KIRIA RER, 
如 “只 读 ” 等 等 ， 而 flag 则 包含 了 许多 标志 位 ， 用 以 表示 扑 开 异世 以 外 的 一 些 属性 和 要 求 。 玫 数 通 
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过 getname( ) 从 用 户 空 间 把 文件 的 路 径 名 拷贝 到 系统 空间 ， 并 通过 get_unused_fd( ) 从 当前 进程 的 “ 打 
开 文件 表 ” 中 找到 一 个 空闲 的 表 项 ， 该 表 项 的 下 标 即 为 “打开 文件 号 ”*。 然 后 ， 根 据 文件 名 通过 
file open( ) 找 到 或 创建 一 个 “连接 ”， 或 者 说 读 / 写 该 文件 的 上 下 文 。 文 件 读 写 的 上 下 文 是 由 file SN 
据 结构 代表 和 描绘 的 ， 其 定义 见 include/linux/fs.h: 


498 
499 
500 
501 
502 
503 
904 
905 
506 
507 
908 
509 
210 
oll 
512 
513 
514 
515 
516 


struct file { 


struct list_head f_list; 
struct dentry *f dentry; 
struct vfsmount *f vfsmnt; 
struct file operations *f op; 
atomic t f count; 

unsigned int f flags; 

mode t f mode; 

loff t f pos; 

unsigned long f reada, [ ramax, f raend, f ralen, f rawin; 
struct fown struct f owner; 

unsigned int f uid, f gid; 

int f error; 

unsigned long f version; 


/* needed for tty driver, and maybe others */ 
void *private data; 


i 


数据 结构 中 不 但 有 指向 文件 的 dentry 结构 的 指针 f_dentry， 指 向 将 文件 所 在 设备 安装 在 文件 系 


统 中 的 vfsmnt 结构 的 指针 ， 有 共享 计数 f_count， 还 有 一 个 在 文件 中 的 当前 读 写 位 置 f pos， 这 就 是 
“上 下 文 "。 找 到 或 者 创建 了 代表 着 目标 文件 的 file 结构 以 后 ， 就 通过 fd_install( ) 将 指向 这 个 结构 的 
指针 圳 入 当前 进程 的 打开 文件 表 , 即 由 其 task_sturct 结构 中 的 指针 file 所 指向 的 files struct 数组 中 并 
返回 其 数组 中 的 下 标 。 


PRX get_unused_fd( ) 的 代码 也 在 fs/open.c T: 


[sys open( ) > get unused fd( )] 


681 
682 
683 
684 
685 
686 
687 
688 
689 
690 
691 
692 


/水 
* Find an empty file descriptor entry, and mark it busy. 
*/ 
int get_unused_ fd (void) 
{ 
struct files struct * files = current— files: 
int fd, error; 


error = -EMFILE; 
. write lock(&files— file lock); 


repeat: 
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693 
694 
695 
696 
697 
698 
699 
700 
701 
702 
703 
704 
705 
706 
707 
708 
709 
710 
711 
112 
713 
114 
715 
716 
T17 
718 
719 
720 
721 
122 
123 
724 
725 
726 
TAT 
728 
729 
730 
731 
732 
733 
734 
735 
736 
131 
738 
139 
740 


#if 
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fd = find next zero bit(files-^open fds, 
files-^max fdset, 
files-?next fd); 


/* 
* N.B. For clone tasks sharing a files structure, this test 
* will limit the total number of files that can be opened. 
*/ 
if (fd >= current->rlim[RLTMIT NOFILE]. riim cur) 

goto out; 


/* Do we need to expand the fdset array? */ 
if (fd >= files—>max fdset) | 
error - expand fdset(files, fd); 
if (lerror) | 
error = —EMFILE; 
goto repeat; 
} 
goto oul; 


} 


/* 
* Check whether we need to expand the fd array. 
*/ 
if (fd >= files->max_fds) | 
error = expand fd array(files, fd); 
if (lerror) | 
error - -EMFILE; 
goto repeat; 
} 


goto out; 


} 


FD SET (fd, files ^open fds) ; 

FD CLR(fd, files—>close on exec); 

files next fd = fd + 1; 

1 

/* Sanity check */ 

if (files->fdlfd] != NULL) { 
printk("^get unused fd: slot %d not NULL!\n”, fd); 
files->fd[fd] = NULL; 

} 


tendi f 


out: 
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error = fd; 


write unlock(&files-^file lock); 
return error; 
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741 } 


进程 的 task_struct 结构 中 有 个 指针 files， 指 向 本 进程 的 files struct 数据 结构 。 与 打开 文件 有 关 
的 信息 都 保存 在 这 个 数据 结构 中 ， 其 定义 在 include/linux/sched.h t: 


159 /* 

160 * The default fd array needs to be at least BITS_PER LONG, 
161 * as this is the granularity returned by copy_fdset( ). 
162 来 / 

163 #define NR OPEN DEFAULT BITS PER LONG 

164 

165 /* 

166 * Open file table structure 

167 */ 

168 struct files struct { 

169 atomic t count; 

170 rwlock t file lock; 

171 int max fds; 

172 int max fdset; 

173 int next fd; 

174 struct file ** fd; /* current fd array */ 
175 fd set *close on exec; 

176 fd set *open fds; 

177 fd set close on exec init; 

178 fd set open fds init; 

179 struct file * fd array[NR OPEN DEFAULT]; 
180 — ; 


这 个 数据 结构 中 最 主要 的 成 分 是 一 个 file 结构 指针 数组 fd. array[ ], 1X7 AB BU ACD Bae, HU 
32， 其 下 标 即 为 “打开 文件 号 ”。 另外 ， 结 构 中 还 有 个 指针 fd ， 最 初时 指向 fd_array[ ]。 结 构 中 还 有 两 
个 位 图 close on exec init 和 open_fds_init， 这 些 位 网 大 致 对 应 着 file 结构 指针 数组 的 内 容 ， 但 是 比 
fd_array[ ] 的 大 小 要 大 得 多 。 同 时 ， 又 有 两 个 指针 close on exec 和 open_fds， 最 初时 分 别 指 向 上 述 两 个 
位 图 。 每 次 打开 文件 分 配 一 个 打开 文件 号 时 就 将 由 open_fds 所 指向 位 图 中 的 相应 位 设 成 1。 此 外 ， 该 
数据 结构 中 还 有 两 个 参数 max_fds 和 max_fdset, ARAHAN file 结构 指针 数组 与 位 图 的 容量 。--- 
个 进程 可 以 有 多 少 个 已 打开 文件 只 取决 于 该 进程 的 task. struct. 结构 中 关于 可 用 资源 的 限制 ( 见 上 面 代 
码 中 的 第 701 行 )。 在 这 个 限制 以 内 ， 如 果 超出 了 其 file 结构 指针 数组 的 容量 就 通过 expand_fd_array( ) 
扩充 该 数组 的 容量 ， 并 让 指针 fa 指向 新 的 数组 ， 如 果 超 出 了 位 图 的 容量 就 通过 expand_fdset( ) 扩 充 两 
个 位 图 的 容量 , 并 使 两 个 指针 也 分 别 指向 新 的 位 图 。 这 样 , 就 克服 了 早期 Unix 因 只 采用 固定 人 小 的 file 
结构 指针 数组 而 使 每 个 进程 可 以 同时 打开 文件 数量 受到 限制 的 缺陷 。 

打开 文件 时 ， 更 确切 地 说 是 分 配 空闲 打开 文件 号 时 ， 遂 过 宏 操 作 FD_SET( ) 将 open_fds 所 指向 的 
位 图 中 的 相应 位 设 成 1, 表示 这 个 打开 文件 号 己 不 再 衬 闲 , 这 个 位 图 代表 着 已 经 在 使 用 中 的 打开 文件 号 。 
同时 ， 述 通过 FD CLR( ) 将 由 指针 close on exec 所 指向 的 位 图 中 的 相应 位 清 0， 表 示 如 果 当 前 进程 通 
过 exec( ) 系 统 调用 执行 -个 可 执行 程序 的 话 无 需 将 这 个 文件 关闭 。 这 个 位 图 的 内 容 可 以 通过 ioctl( ) 系 
统 调用 来 设置 。 
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动态 地 调整 可 同时 打开 的 文件 数量 对 于 现代 、 特 别 是 面向 对 和 象 的 环境 共有 重 此 意义 ， 因 为 在 这 些 
环境 下 常常 此 求 间 时 打开 数量 众多 (但 是 每 个 文件 却 很 小 〉 的 文件 。 
显然 ，sys_open( ) 的 主 休 是 filp open( )， 其 代码 也 在 fs/open.c 中 : 


[sys_open( ) > filp_open( )] 


600 /** 

601 * Note that while the flag value (low two bits) for sys open means: 
602 * 00 - read-only 

603 x Ol - write-only 

604 * 10 - read-write 

605 * 11 - special 

606 * it is changed into 

607 * 00 - no permissions needed 

608 * Ol - read-permission 

609 * 10 - write-permission 

610 * 11 - read-write 

611 * for the internal routines (ie open namei( )/follow link( ) etc). 00 is 
612 * used by symlinks. 

613 */ 


614 struct file *filp open(const char * filename, int flags, int mode) 
615 { 


616 int namei_flags, error; 

617 struct nameidata nd; 

618 

619 namei flags = flags; 

620 if ((namei flags+l) & O_ACCMODE) 

621 namei flagst+; 

622 if (namei flags & O TRUNC) 

623 namei flags |- 2; 

624 

625 error = open namei(filename, namei flags, mode, &nd); 
626 if (lerror) 

627 return dentry_open(nd. dentry, nd.mnt, flags) ; 
628 

629 return FRR PTR(error) ; 

630 } 


这 里 的 参数 flags 就 是 系统 调用 open( ) 传 下 来 的 ， 它 遵循 open( ) 界 面 | 对 flags 的 约定 ， 但 是 这 里 
调用 的 open namei( ) 却 对 这 些 标志 位 有 不 同 的 约定 〈 见 600 行 至 613 行 中 的 注释 )， 所 以 要 在 调用 
open, namei( ) 前 先 加 以 变换 , 对 于 1386 处 理 器 ,用 十 open( ) 界 而 上 的 标志 位 是 在 include/asm_i386/fentl.h 
中 定义 的 : 


4 /* open/fent} -0 SYNC is only implemented on blocks devices and on files 
located on an ext2 file system */ 
6 define O0 ACCMODE 0003 


an 
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练 的 


#define 
#define 
define 
Hdefine 
#define 
#define 
#define 
#define 
#define 
#def ine 
#define 
#def ine 
#definc 
#define 
#define 
#define 


0_RDONLY 

O WRONLY 
O_RDWR 

0 CREAT 

0 EXCL 

0 NOCTTY 

0 TRUNC 

0 APPEND 

0 NONBLOCK 
O NDELAY 

0 SYNC 
FASYNC 

O DIRECT 

O LARGEFILE 
0 DIRECTORY 
0. NOFOLLOW 
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00 

01 

02 

0100 
0200 
0400 
01000 
02000 
04000 

O NONBLOCK 
010000 
020000 
040000 
0100000 
0200000 
0400000 


/* not fcnt] */ 
/* not fenti */ 
/* not fcntl */ 
/* not fcntl */ 


/* fcntl, for BSD compatibility */ 
f*direct disk access hint-currently ignored*/ 


/* must be a directory */ 
/* don't follow links */ 


对 于 flags "Pf PS Ay Pr dE TE E AE 1 620—621 行 完成 的 ， 有 具体 的 变换 如 下 ; 


00， 
0l, 


ll, 


此 外 ， 如 果 OO TRUNC 标志 位 为 1〈 表 示 要 求 截 尾 ) 则 意味 着 要 求 写 访问 权 。 这 些 代 码 确实 是 很 精 


o 


RARER, (AE “NR” 


表示 íí NS ” 
l0, RR “BEANS” 


45%, CO RDWRIO WRDNLY? 


变换 成 ; 
变换 成 ; 
变换 成 : 
变换 成 : 


01. KNBR ll XC. 
10, XR EGK S Ui inc. 
ll, RPBRLMS UR A. 
ll, ARARKEN 


下 面 就 忠 调用 open_namei( )， 其 代码 在 fs/namei.c 中 ， 我 们 分 段 来 看 。 


[sys_open( ) > filp open( ) > open_nameit )] 


925 
926 
927 
928 
929 
930 
931 
932 
933 
934 
935 
936 
937 
938 
939 


一 、 
* 


X X X* X X X X X X X X X 


*/ 


open namei( ) 


namei for open - this is in fact almost the whole open-routine. 


Note that the low bits of "flag" aren t the same as in the open 
system call - they are 00 - no permissions needed 


01 - read permission needed 
10 - write permission needed 
11 - read/write permissions needed 


which is a lot more logical, and also allows the "no perm” needed 
for symlinks (where the permissions are checked later). 
SMP safe 


int open namei(const char * pathname, int flag, int mode, 


struct nameidata *nd) 
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940 { 

941 int acc mode, error = 0: 

942 struct inode *inode; 

943 struct dentry *dentry; 

944 struct dentry *dir; 

945 int count - 0; 

946 

047 acc mode = ACC MODE(flag); 

948 

949 /* 

950 * The simplest case - just a plain lookup. 

951 */ 

952 if (!(flag & O CREAD) { 

953 if (path init(pathname, lookup flags(flag), nd)) 
954 error - path walk(pathname, nd); 

955 if (error) 

956 return error: 

957 dentry = nd->dentry; 

958 goto ok; 

959 } 

960 

961 /* 

962 * Create - we need to know the parent. 

963 */ 

964 if (path init(pathname, LOOKUP PARENT, nd)) 

965 error = path walk(pathname, nd); 

966 if (error) 

967 return error; 

968 

969 /* 

970 * We have the parent and last component. First of all, check 
971 * that we are not asked to creat(2) an obvious directory - that 
972 * will not do. 

973 */ 

974 error = -EISDIR; 

975 if (nd->last_type != LAST NORM || nd->last. name[nd->last. len]) 
976 goto exit; 

977 


调用 参数 flag 中 的 O_CREAT 标志 位 表示 如 果 紫 打开 的 文件 不 存在 就 创建 这 个 文件 。 所 以 ， 如 果 
这 个 标志 位 为 GO， 就 仅仅 是 在 文件 系统 中 寺 找 目标 节点 ， 这 就 是 通过 path_init( ) 和 path_walk( ) 根 据 目 
标 节 点 的 路 径 名 找到 该 节点 的 dentry 结构 【以 及 inode 结构 》 的 过 程 ， 那 已经 在 果 介 绍 过 了 。 这 里 
惟一 值得 一 提 的 是 在 调用 path_init( ) 时 的 参数 flag 还 要 通过 lookup_flags( ) 进 行 一 些 处 理 ， 其 代码 也 在 


fs/namei.c 中 : 


[sys_open( ) > filp open( ) > open namei( ) > lookup flags( )] 
876 /* 
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877 * Special case: 0 CREAT|O EXCL implies O_NOFOLLOW for security 
878 * reasons. 





8T9 * 

880 * Q0 DIRECTORY translates into forcing a directory lookup. 
881 */ 

882 static inline int lookup. flags (unsigned int T) 

883 { 

884 unsigned long retval = LOOKUP FOLLOW; 

885 

886 if (f & 0 NOFOLLOW) 

887 retval &- "LOOKUP FOLLOW; 

888 

889 if ((£ & (0 CREATIO EXCL)) == (0 CREAT|O EXCI)) 
890 retval &- "LOOKUP FOLLOW; 

89] 

892 if (f & O DIRECTORY) 

893 retval ‘= LOOKUP DIRECTORY; 

894 

895 return retval; 


nfl, iX Dm 953 行 的 path init( ) 设 置 了 其 参数 flags 中 反映 者 搜索 准则 的 标志 位 ， 但 是 最 多 
只 有 LOOKUP_FOLLOW 和 LOOKUP DERECTORY 两 位 有 可 能 为 1。 男 -- 方 面 ， 在 open_namei( ) 中 
对 这 些 标志 位 的 设置 ， 邮 对 lookup flags ) 的 调用 ， 是 有 条 件 的 ， 仅 在 原先 的 参数 flag 中 O_CREAT $R 
志 位 为 0 时 才 进 行 ， 所 以 我 们 知道 这 里 889 行 中 的 条 件 一 定 是 不 成 立 的 。 如 果 O_CREAT 标志 位 为 0， 
那么 要 是 找 不 到 日 标 节点 就 失败 返回 而 不 创建 这 个 节点 )。 

找到 了 目标 节点 的 dentry 结构 以 后 ， 还 要 对 共 进 行 很 多 检验 ， 等 一 下 我 们 青 回 到 这 个 话题 。 

如 果 O_CREAT PREMA 1， 那 就 要 复 要 多 了 了 。 首 先 也 是 通过 path_init( ) 和 path. walk( ) 沿 着 路 径 搜 
索 ， 不 过 这 一 次 寻找 的 不 是 目标 节点 的 本 身 ， 而 是 其 父 节点 ， 也 就 是 目标 文件 所 在 的 目录 ， 所 以 在 调 
H path_init( ) 时 的 标志 位 为 LOOKUP. PARENT. 如 果 在 搜索 过 程 中 出 了 错 , 例如 某 个 中 间 节 点 不 存在 ， 
或 者 不 允许 当前 进程 访问 ， 屠 就 出 错 返回 了 。 否 则 ， 那 就 是 找到 了 这 个 父 节 点 。 但 是 ， 找 到 了 父 节点 
并 不 表示 整个 路 径 怀 没 有 问题 了 。 在 正常 的 路 径 名 中 ,路 径 的 终点 是 一 个 文件 名 ， 此 时 nameidata 结构 
中 的 last_type FH path_walk( ) 设 置 成 LAST_NORM。 但 是 ， 也 有 可 能 路 径 的 终点 为 “.” 或 “..” 也 就 
是 说 路 径 的 终点 实际 上 是 一 个 日 录 , 此 时 path_walk( ) 将 last_type 设置 成 LAST_DOT 或 LAST_DOTDOT 

( 见 “ 从 路 征 名 到 日 标 节点 ”一 季 )， 屠 就 应 该 视 为 出错 而 返回 出 错 代码 一 EISDIR。 这 是 为 什么 呢 ?” 因 

为 O_CREAT 标志 位 为 1 表示 若 昌 标 节 点 个 存在 就 创建 该 节点 ， 可 是 open( ) 只 能 创建 文件 而 不 能 创建 
明永 ， 目 录 要 由 另 一 个 系统 调用 mkdir( ) 来 创建 。 间 时 ， 目 标 节点 名 必须 是 以 “\0” 结 尾 的 ， 那 才 是 个 
正常 的 文件 名 。 和 否则 说 明 在 目标 和 节点 名 后 面 还 有 作为 分 隔 符 的 cn 字符 ， 那 么 这 还 是 个 目录 A. J 
意 虽 然 十 找 的 是 旦 标 节点 的 父 节 点 ， 但 是 path_walk( ) 将 nameidata 结构 中 的 qstr 结构 last 设置 成 含有 有 
日 标 宇 点 的 节点 名 和 子 符 串 长 度 ， 只 不 过 没有 去 寻找 日 标 节点 的 dentry 结构 〈 以 及 inode 结构 )。 读 者 
不 妨 回 过 去 重 温 下 path_walk( ) 的 代码 。 

通过 了 这 些 检 售 ， 才 说明 真 的 找到 了 日 标 文件 所 在 晶 录 的 dentry 结构 ， 可 以 往 下 执行 了 。 继 续 往 
FX (namei.c): 
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[sys_open( ) > filp_open( ) > open_namei( )] 


978 
979 
980 
981 
982 
983 
984 
985 
986 
987 
988 
989 
990 
991 
992 
993 
994 
995 
996 
997 
998 
999 
1000 
1001 
1002 
1003 
1004 
1005 
1006 
1007 
1008 
1009 
1010 
1011 
1012 
1013 
1014 
1015 
1016 
1017 
1018 
1019 
1020 
1021 
1022 
1023 


dir = nd->dentry; 
down (&dir->d_inode->i_sem) ; 
dentry = lookup_hash(&nd->last, nd >dentry) ; 


do last: 
error = PTR ERR(dentry); 
if (IS_ERR(dentry)) { 
up(&dir->d inode->i sem); 
goto exit; 


} 


/* Negative dentry, just create the file */ 
if (!dentry-^d inode) { 
error = vfs_create(dir->d_inode, dentry, mode); 
up(&dir-^d inode-^i sem); 
dput (nd-^dentry); 
nd->dentry = dentry; 
if (error) 
goto exit; 
/* Don’t check for write permission, don't truncate */ 
acc mode = Q; 
flag &- "0 TRUNC; 
goto ok; 


} 
/* 


* [t already exists. 
*/ 
up (&dir->d_inode->i_ sem); 


error = -EEXIST; 
if (flag & 0 EXCL) 
goto exit dput; 


if (d mountpoint(dentry)) | 
error - -ELOOP; 
if (flag & 0 NOFOLLOW) 
goto exit dput; 
do | follow down (&nd->mnt, &dentry); while(d mountpoint (dentry)) ; 
} 
error = —ENOENT; 
if ('dentry—>d_inode) 
goto exit_dput; 
if (dentry—>d_inode—>i_op && dentry->d_inode->i op->follow_link) 
goto do link; 
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1024 dput (nd dentry) ; 

1025 nd->dentry = dentry; 

1026 error = -ETSDIR; 

1027 if (dentry->d_inode && S ISDIR(dentry-^d inode-^i mode) ) 
1028 goto exit; 

1029 ok: 


我 们 已 经 找到 了 目标 文件 所 在 目录 的 dentry 结构 ， 并 让 指针 dir 指向 这 个 数据 结构 ， 下 . - 步 就 
是 通过 lookup_hash( ) 寻 找 目 标 文 件 的 dentry 4744 T (98047). EX lookup_hash( ) 的 代码 也 在 fs/namei.c 
qd! 


[sys_open( ) > filp open( ) > open. namei( ) > lookup. hashí( )] 


704 /* 

705 * Restricted form of lookup. Doesn't follow links, single-component only, 
706 * needs parent already locked. Doesn t follow mounts. 

107 * SMP-safe. 

708 */ 


709 struct dentry * lookup_hash(struct gstr *name, struct dentry * base) 
710 { 


711 struct dentry * dentry; 

712 struct inode *inode; 

713 int err; 

714 

715 inode = base->d_inode; 

716 err = permission(inode, MAY EXEC): 

717 dentry = ERR PTR(err); 

718 if (err) 

719 goto out; 

720 

721 /* 

722 * See if the low-level filesystem might want 
723 * to use its own hash.. 

724 */ 

725 if (base->d_op && base->d op->d hash) { 
726 err = base->d_op—>d_hash(base, name); 
727 dentry = ERR PTR(err); 

728 if (err < 0) 

729 goto out; 

730 } 

731 

732 dentry = cached lookup(base, name, 0); 
733 if (!dentry) { 

734 struct dentry *new = d_alloc(base, name): 
735 dentry = ERR PTR(-ENOMEM) ; 

736 if (!new) 

137 goto out; 
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738 lock kernel( ); 
139 dentry = inode->i_op->lookup(inode, new); 
740 unlock kernel( ); 
741 if (!dentry) 

142 dentry - new; 
743 else 

744 dput (new) ; 
745 } 
746 out: 

TAT return dentry; 

748 |. ] 


这 个 函数 先 在 dentry 杂凑 表 队 列 中 寻找 ， 找 不 到 就 先 创建 一 个 新 的 dentry 数据 结构 。 再 到 目标 
文件 所 在 的 目录 中 寻找 一 次 ， 如 果 找 到 了 就 把 已 经 创建 的 dentry 结构 “归还 ”， 找 不 到 才 采 用 它 。 为 
什么 要 采取 这 样 的 次 序 呢 ? 这 是 因为 在 执行 d_alloc( ) 的 过 程 中 有 可 能 进入 睡 卢 ， 这 样 就 仓 在 一 种 可 
能 ， 就 是 当 有 睡眠 醒 过 来 时 情况 已 经 变 了 。 类 似 的 情景 读者 在 前 几 音 也 多 次 看 到 过 。 这 样 ， 从 
lookup_hash( ) 返 回 时 ， 不 管 这 目标 文件 存在 与 否 ， 总 是 返回 一 个 dentry 数据 结构 指针 《除非 系统 中 
的 缓冲 区 已 经 用 完 )。 如 些 目 标 文 件 的 dentry 结构 原来 就 存在 ， 那 么 结构 中 的 d_inode 指针 指向 该 文 
件 的 inode 结构 ， 而 如 果 这 个 dentry 结构 是 新 创建 的 ， 则 其 d inode 指针 为 NULL. DS ex 
有 inode 结构 。 

先 看 月 标 文 件 尚 不 存在 的 情况 〈 见 990 行 )， 那 就 要 通过 vfs_create( ) 创 建 。 这 个 函数 的 代码 比 
较 长 ， 却 相对 独立 ， 并 日 受到 多 处 调用 ， 所 以 我 们 把 它 推迟 到 后 而 再 来 阅读 ， 这 里 暂时 只 要 知道 这 
个 函数 的 作用 是 创建 文件 就 行 了 。 

费 是 里 标 文 件 点 来 就 存在 呢 ? 首先 ， 在 系统 调用 open ) 的 参数 中 标志 位 O_CREAT 和 O_EXCL 
同时 为 1 表示 日 标 文件 在 此 之 前 必须 不 存在 ， 所 以 如 果 己 经 存在 就 上 只 好 出 错 返回 了 ， 出 错 代码 为 一 
EEXIST。 其 次 ， 这 个 目标 文件 有 可 能 是 个 安装 点 ， 那 样 就 要 通过 _follow_down( ) 跑 到 所 安装 的 文 
件 系统 中 去 ， 而 且 要 通过 一 个 do-while 循环 一 直 跑 到 凑 。 此 外 ， 这 个 日 标 文 件 了 电 有 可 能 只 个 符 
号 连接， 侧 连 接 的 对 象 有 可 能 “悬空 ” 就 是 连接 的 对 象 在 另 个 设备 上 , 但 是 那个 设备 却 没 有 安装 
所 以 代码 中 先 检验 目标 节点 是 否 符 续 连接 ， 是 的 话 就 goto 到 do link 处 ， 顺 着 连接 前 进 到 其 目标 节 
占 , 如 果 连 接 对 象 晤 空 则 返回 出 错 代码 一 ENOENT, 否则 便 又 goto Fj do, last 处 对 日 标 节点 展开 新 
一 轮 的 检查 。 这 ，:- 段 代 但 在 open_namei( ) 的 最 后 ， 我 们 顺 着 程序 的 流程 把 它 提 到 脐 帮 来 阅读 : 


[sys_open( ) > filp open( ) > open_namei( )] 


1112 do link: 


1113 error = -ELOOP; 

1114 if (flag & O_NOFOLLOW) 

1115 goto exit dpul; 

1116 /* 

1117 * This is subtle. Instead of calling do follow link( ) we do the 

1118 * thing by hands. The reason is that this way we have zero link count 
1119 * and path walk( ) (called from — follow link) honoring LOOKUP PARENT. 
1120 * After that we have the parent and last component, i.e. 

112] * we are in the same situation as after the first path_walk( ). 
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1122 * Well, almost - if the last component is normal we get its copy 
1123 * stored in nd->last. name and we will have to putname( ) it when we 
1124 * are done. Procfs like symlinks just set LAST BIND. 
1125 */ | 

1126 UPDATE ATIME(dentry-^d inode); 

1127 error = dentry~>d_inode—>i_op->follow link(dentry, nd); 
1128 dput (dentry) ; 

1129 if (error) 

1130 return error; 

1131 if (nd->last type == LAST BIND) { 

1132 dentry = nd->dentry; 

1133 goto ok; 

1134 } 

1135 error = -EJSDIR; 

1136 if (nd->last_type != LAST NORM) 

1137 goto exit; 

1138 if (nd->last. nameLnd->last. len]) { 

1139 putname (nd-? last. name) ; 

1140 goto exit; 

1141 ) 

1142 if (count++==32) ( 

1143 dentry = nd->dontry; 

1144 putname (nd->last. name) ; 

1145 goto ok; 

1146 } 

1147 dir = nd->dentry; 

1148 down(&dir-»d inode-^i sem); 

1149 dentry = lookup hash(&nd->last, nd->dentry) ; 

1150 putname (nd->last. name) ; 

1151 goto do last; 


该 过 path. walk( ) 的 读者 对 这 段 代 但 不 应 该 感到 陌生 。 找到 连接 日 标的 操作 主要 是 由 具体 文件 系 
统 在 其 inode_operations 结构 中 的 函数 指针 follow link. 提供 的 。 对 于 Ext2 这 个 函数 为 
ext2_follow_link( )， 而 最 后 这 个 的 数 又 会 通过 vfs_follow_link( ) 调 用 path_walk(), 这 读者 已 经 看 到 过 
Jo GE RH AWW path init( ) 设 置 在 nameidata 数据 结构 中 的 标志 位 并 未 改变 ， 仍 是 
LOOKUP PARENT. 

对 于 日 标 节点 是 符号 连接 的 情况 , 如 洒 说 在 follow link 之 前 的 “目标 节点 ”是 “ 视 在 目标 节点 ”， 
AA follow link 以 后 的 nd->last 就 是 “真实 日 标 节点 ”的 节点 名 了 ， 而 nd->dentry 则 仍旧 指向 其 父 
节点 的 dentry 结构 。 | 

搜索 到 了 真实 目标 节点 的 节点 名 后 ， 同 样 还 要 检查 这 个 节点 是 否 只 是 个 目录 而 不 是 文件 (1136 
行 和 1138 行 )， 如 果 是 日 录 就 此 出 错 返回 。 至 于 搜索 的 结果 为 LAST_BIND， 则 只 发 牛 二 /proc 或 类 
似 的 特殊 文件 系统 中 ， 我 们 在 此 并 不 关心 。 

最 后 ， 还 要 通过 lookup_hash( ) 找 到 或 创建 真实 日 标 节 点 的 dentry 结构 ， 接 着 就 转 回 到 前 而 的 
do last 慰 号 处 ， 在 那 叶 又 要 重复 前 面 对 日 祭 节点 的 一 系列 检验 。 检 验 的 结果 可 能 会 发 现 我 们 所 以 为 
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的 “真实 目标 节点 ”实际 上 又 是 一 个 “ 视 在 目标 节点 ” 那 就 又 会 转 到 这 里 的 do_link。 为 了 防止 陷 
入 无 穷 循环 ， 这 里 用 了 一 个 计数 器 count 加 以 控制 ( 见 1142 行 )， 如 果 计 数值 达到 了 32 就 果断 结束 
而 转 到 标号 ok 处 ， 在 那里 还 要 作 进 一 步 的 检查 ， 若 发 现 仍 是 连接 节点 就 会 返回 出 错 代 码 一 ELOOP。 
读者 以 前 在 path_walk( ) 的 代码 中 看 到 调用 一 个 函数 do_follow_link( ), 在 孝 里 也 有 对 连接 链 长 度 的 控 
制 (通过 task_struct 结构 中 的 link count 字段 )， 为 什么 这 里 还 要 另 搞 一 套 呢 ? 这 是 因为 path_walk( ) 
对 于 虽 在 LOOKUP PARENT 的 搜索 只 处 理 人 到 目标 节点 的 父 节点 为 小 ， 对 目标 节点 本 身 吓 不 作 处 理 
的 。 

只 要 连接 链 的 长 度 不 超出 合理 的 范围 ， 最 终 总 会 找到 真正 的 目标 节点 。 我 们 继续 入 下 看 


(namei.c: )。 


[sys open( ) > filp open( ) > open. namei( )] 


1029 ok: 

1030 error = -ENOENT; 

1031 inode = dentry~>d_inode; 

1032 if (inode) 

1033 goto exit; 

1034 

1035 error = -ELOOP; 

1036 if (S_ISLNK(inode—>i_mode) ) 

1037 goto exit; 

1038 

1039 error = —EISDIR; 

1040 if (S_ISDIR(inode->i_mode) && (flag & FMODE WRITE)) 

1041 goto exit; 

1042 

1043 error = permission(inode, acc mode) ; 

1044 if (error) 

1045 goto exit; 

1046 

1047 /* 

1048 * FIFO’ s, sockets and device files are special: they don't 
1049 * actually live on the filesystem itself, and as such you 
1050 * can write to them even if the filesystem is read-only. 
1051 */ 

1052 if (S ISFIF0(inode- i mode) || S_TSSOCK(inode->i_mode)) { 
1053 flag &- 0 TRUNC; 

1054 } else if (S ISBLK(inode— i mode) || S ISCHR(inode— i mode)) | 
1055 error = -EACCES; 

1056 if (IS NODEV (inode) ) 

1057 goto exit; 

1058 

1059 flag &- “0 TRUNC; 

1060 } else { 

1061 error = -EROFS; 

1062 if (IS RDONLY(inode) && (flag & 2)) 
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goto exit; 
} 
/* 
* An append-only file must be opened in append mode for writing. 
*/ 


error - -EPERM; 
if (IS APPEND(inode)) | 
if ((flag & FMODE WRITE) && ! (flag & O APPEND)) 
golo exit; 
if (flag & 0 TRUNC) 
goto exit; 


/* 
* Ensure there are no outstanding leases on the file. 
*/ 
error = get lease(inode, flag); 
if (error) 
goto exit; 


if (flag & 0 TRUNC) | 
error = get write access (inode) ; 
if (error) 
goto exit; 


/* 
* Refuse to truncate files with mandatory locks held on them. 
*/ 
error 7 locks verify locked(inode); 
if (terror) | 
DQUOT INIT (inode) ; 


error = do truncate(dentry, 0); 
} 
put_write_access (inode) ; 
if (error) 
goto exit; 
) else 
if (flag & FMODE WRITE) 
DQUOT_INTT (inode) ; 


return 0; 


exit dput: 
dput (dentry) : 
exit: 


return error: 
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4 4 & 2» ^*^ 6 


1152 ) 


找到 或 者 创建 了 目标 文件 以 后 ， 还 要 对 代表 着 目标 文件 的 数据 结构 进行 一 系列 的 检验 ， 包 括 访 
问 权 限 的 检验 以 及 -- 些 处 理 〈 如 截 尾 )。 读 者 也 许 会 对 头 三 项 检验 感到 奇怪 ， 不 是 刚刚 已 经 检查 过 了 
吗 ? 回 过 去 看 一 下 就 知道 ， 那 只 是 仁 特 殊 条 件 下 进行 的 ， 而 月 并 不 完整 。 弄 现在 ， 则 是 进行 综合 、 

PE XE permission( ) 的 代码 读者 已 经 在 本 章 第 二 节 中 读 过 ， 这 里 的 acc mode 是 在 一 进入 
open_namei( ) 时 就 准备 好 了 的 ( 见 947 47), 其 中 宏 操 作 ACC. MODE 及 有 关 的 定义 分 别 在 fs/namei.c 
和 include/asm 1386/fcntl.h 中 给 出 : 


6 tdefine 0 ACCMODE 0003 
34 #define ACC MODE(x) (”\000\004\002\006" [ (x) &O. ACCMODE]) 


这 里 需 紫 一些 说 明 。”“\000W004W002\006” 是 个 字符 串 ， 其 第 … ATTA 8 XEIBI] 0, 58 LIE 
为 8 进 制 的 4， 余 类 推 。 大 家 知道 ， 在 C 语 吉 中 字符 串 与 字符 数组 是 等 价 的 ， 所 以 这 里 把 它 作为 字 
符 数组 来 使 用 ， 而 下 标 则 为 (flag & O_ACCMODE)。 由 于 O_ACCMODE 的 值 定 义 为 3， 所 以 只 有 
四 种 可 能 的 下 标 值 ， 即 0、1、2、3， 上 有 具体 取决 于 flag。 另 方面， 前面 讲 过 ， 在 filp_open( ) 中 调用 
open namei( ) 之 前 已 经 对 flags 作 了 一 些 处 理 ， 将 系统 调用 open( ) 界 面 上 的 标志 位 变换 成 了 
open_namei( ) 所 要 求 的 格式 〈 见 filp_open( ) 采 而 的 注释 )。 但 是 ， 册 数 permission( ) 所 紫 求 的 又 有 些 
不 同 ， 所 以 还 要 再 变换 一 次 。 读 者 也 许 会 说 :“ 这 不 是 存心 计 人 看 不 懂 吗 ?为 什么 疾 作 这 么 多 变换 
WE? ”其 实 ， 这 也 是 不 得 已 的 事 ， 系 统 调用 open( ) 界 面 上 的 标志 位 是 从 Unix 的 早期 就 定义 好 了 的 ， 
要 保持 兼容 就 不 能 改变 。 所 以 ， 变 换 绝 对 十 必须 的 事 。 可 以 敬 酮 的 只 是 一 次 性 变换 还 是 分 两 次 变换 ， 
读者 仔细 阅读 open_namei( ) 的 全 部 代码 ， 就 会 体会 到 现在 这 样 分 詹 次 变换 偿 是 合理 的 ， 尽 管 未 必 是 
惟一 合理 的 方案 。 

下 面 还 有 一 些 对 文件 模式 (1 inode 结构 中 的 i mode 表示 ) 与 操作 要 求 《 由 flag 表示 ) 之 间 的 
一 致 性 的 检验 和 处 理 。 这 些 检验 和 处 埋 人 多 数 比 较 简 单 ,例如 对 FIFO APRA SCT RICA BRE, Br 
以 把 O_TRUNC 标志 位 清 0 等 等 。 我 们 在 这 里 不 关心 磁盘 空间 二 额 ( 见 1093 行 )， 所 以 集中 看 文件 
BUS. 打开 文件 时 , 将 O_TRUNC 标志 位 设 成 1 表示 要 将 文件 中 原 有 的 内 容 全 部 删除 ， 称 为 “ 截 尾 ”， 
这 是 由 代码 中 的 第 1083 行 全 1100 行 完成 的 。 在 此 之 前 还 调用 了 一 个 函数 get lease( )， 这 是 与 文件 
“租借 ”有 关 的 操作 ， 我 们 在 此 并 不 关心 。 

在 文件 的 inode 数据 结构 中 有 个 计数 器 i_writecount， 用 米 对 正在 写 访问 该 文件 的 进程 计数 。 另 
TTA, 有 些 文件 可 能 已 经 通过 mmap( ) 系 统 调 用 映射 到 某 个 进程 的 虚 存 空间 ， 这 个 计数 器 束 几 于 道 
过 正常 的 文件 操作 和 通过 内 存 映 射 这 两 种 写 访问 之 间 的 总 斥 。 当 这 个 计数 为 负 值 时 表示 有 进程 可 以 
通过 虚 存 管理 对 文件 进行 写 操作 ， 为 正 值 则 表示 某 个 或 菜 些 进程 正在 对 文件 进行 写 访问 。 内 核 中 找 
供 了 get_write_access( ) 和 和 deny_write_access( ) 两 个 国 数 米 保 证 这 种 互 太 访问， 这 了 两 个 函数 的 代码 在 


fs/namei.c 中 : 


195 /* 
196 * get write _ access( ) gets write permission for a file. 
[97 * put write access( ) releases this write permission. 
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198  * This is used for regular files. 


199 * We cannot support write (and maybe mmap read-write shared) accesses and 
200 * MAP DENYWRITE mmappings simultaneously. The i writecount field of an inode 
201  * can have the following values: | 
202  * 0: no writers, no VM DENYWRITE mappings 

203  * € 0: (i writecount) vm area Structs with VM DENYWRITE set exist 

204 *» 0: (i writecount) users are writing to the file. 

205 * 

206  * Normally we operate on that counter with atomic {inc,dec} and it's safe 
207  * except for the cases where we don't hold i writecount yet. Then we need to 
208  * use (get,deny] write access( ) - these functions check the sign and refuse 
209  * to do the change if sign is wrong. Exclusion between them is provided by 
210  * spinlock (arbitration lock) and I'll rip the second arsehole to the first 
211  * who will try to move it in struct inode - just leave it here. 

212 */ 

213 static spinlock t arbitration lock = SPIN LOCK UNLOCKED; 

214 int get write access(struct inode * inode) 

215. 1 | 

216 spin lock(&arbitration lock); 

217 if (atomic read(&inode-^i writecount) < 0) 1 

218 spin unlock(&arbitration lock); 

219 return :ETXTBSY; 

220 } 

221 atomic inc (&inode->i_writecount) ; 

229 spin unlock(&arbitration lock); 

223 return Q; 

224 } 

225 int deny_write_access (struct. file * file) 

226 

227 spin lock(&arbitration lock); 

228 if (atomic read(&file— f dentry-^d inode->i writecount) > 0) { 

229 spin unlock(&arbitration lock); 

230 return -ETXTBSY; 

231 } 

232 atomic_dec(&file—>f_dentry—>d inode->i writecount) ， 

233 spin unlock(&arbitration lock); 

234 return 0; 

235 } 


这 里 要 注意 ， 注 释 中 所 说 的 “gets write permission” ‘iit permission ) 检 验 当 前 进程 对 文件 的 
号 访问 权限 是 两 码 事 。 前 者 是 指 对 文件 的 常规 写 操作 和 对 经 过 内 存 映 射 的 文件 内 容 的 写 操 作 之 问 的 
互让 ， 而 后 者 则 是 出 于 安全 性 考虑 的 对 访问 权限 的 验证 。 

通过 get_write_access( )£ f] T *3RTEB VT AT a, 还 要 考虑 日 标 文件 是 否 己 经 被 其 他 进程 锁 化 了 。 
从 进程 的 角度 考虑 ， 对 文件 的 每 次 读 或 写 可 以 认为 起 “原子 性 ”的 ， 因 为 每 次 读 或 写 都 只 要 通过 一 
次 系统 调用 就 可 完成 。 但 是 ， 如 果 考 虑 连续 几 次 的 谈 、 写 操作 ， 那 么 这 些 相继 的 读 、 写 操作 从 总 体 
上 看 就 显然 不 是 “原子 性 ”的 了 。 对 于 数据 库 一 类 的 应 用 ， 这 就 成 为 “个 问题 。 因 此 就 发 展 起 了 对 
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文件 或 文件 中 的 某 一 部 分 内 容 “ 加 锁 ” 的 技术 。 

“加 锁 ” 技 术 有 两 种 。 一 种 是 由 进程 之 间 自 己 协调 的 ， 称 为 “协调 锁 ”(advisory lock, ER 
cooperative lock)。 对 于 这 一 种 锁 ， 内 核 只 提供 加 锁 以 及 检测 文件 是 否 已 经 加 锁 的 手段 ， 即 系统 调用 
flock( )， 但 是 内 核 并 不 参与 锁 的 实施 。 也 就 是 说 ， 如 果 有 进程 不 遵守 “游戏 规则 ”， 不 检查 目标 文件 
是 否 已 经 由 别 的 进程 加 了 锁 就 往 里 面 写 ， 内 核 是 不 加 阻拦 的 ， 另 … 种 则 是 由 内 核 强 制 实施 的 ， 称 为 
“强制 锁 ”(mandatory lock)， 即 使 有 进程 不 遵守 游戏 规则 ， 不 问 二 七 二 十 一 就 要 往 加 了 锁 的 文件 
中 写 ， 内 核 也 会 加 以 阻拦 。 这 种 锁 是 对 “协调 锁 ” 的 改进 与 加 强 ， 具 体 通 过 fend( ) 系 统 调 用 实现 。 
但 是 ， 在 有 些 应 用 中 并 不 适合 使 用 强制 锁 ， 所 以 要 给 文件 加 上 一 个 像 开 关 一 样 的 东 凸 ， 这 样 才 可 以 
有 选择 地 允许 或 不 允许 对 一 个 文件 使 用 强制 锁 。 在 inode 结构 的 i flag 字段 中 定义 的 一 个 标志 位 
MS_MANDLOCK， 就 是 起 着 开关 的 作用 。 这 个 标志 位 不 仅 用 十 inode 结构 ， 也 用 丁 super block Zi 
构 ， 对 于 整个 文件 子 系统 也 可 以 在 安装 时 将 参数 中 的 这 个 标志 位 设 成 1 或 0， 使 整个 设备 上 的 文件 
全 都 允许 或 不 允许 使 用 强制 锁 。 对 于 归 求 截 尾 的 打开 文件 操作 ， 内 核 应 检查 目标 文件 或 者 目标 文件 
所 在 的 设备 是 否 允 许 使 用 强制 锁 ， 并 且 已 经 加 了 锁 ; 如 果 已 经 加 了 强制 锁 便 应 该 出 错 返 回 。 这 就 是 
调用 inline 函数 locks_verify_locked( ) 的 原因 ， 其 代码 在 include/linux/fs.h P: 


[sys_open{ ) > filp. open( ) > open namei( ) > locks_verify_locked( )] 


892 /* 
893 * Candidates for mandatory locking have the setgid bit set 
894 * but no group execute bit - an otherwise meaningless combination. 
895 */ 
896 #define MANDATORY LOCK (inode) V 
897 (IS_MANDLOCK (inode) && \ 
((inode)->i mode & (S ISGID | S IXGRP)) == S ISGID) 
898 


899 static inline int locks verify locked(struct inode *inode) 
900 { 


901 if (MANDATORY LOCK (inode) ) 
902 return locks mandatory locked(inode); 
903 return 0; 
904 ) 
Aa BRE X: 
131 /* 


132 * Note that nosuid etc flags are inode-specific: setting some file-system 


133 * flags just means all the inodes inherit those flags by default. 1t might be 
134 * possible to override it selectively if you really wanted to with some 
135 * ioctl( ) that is not currently implemented. 


Unfortunately, it is possible to change a filesystems flags with it mounted 
with files in use. This means that all of the inodes will not have their 


* 
* 
* 
* 
137 * Exception: MS RDONLY is always applied to the entire file system. 
x 
水 
* i flags updated. Hence, i flags no longer inherit the superblock mount 
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142 * flags, so these have to be checked separately. ~ rmk@arm. uk. linux. org 
143 */ 

144 #define __IS FLG(inode,flg) ((inode)— i sb >s flags & (flg) 

145 

146 "define IS RDONLY(inode) ({inode) ->i_sb->s_ flags & MS RDONLY) 


147 define IS NOSUID(inode) IS Fl.G(inode, MS NOSUID) 
148 &define IS NODEV (inode) IS Fl.G(inode, MS NODEV) 

149 #define IS NOEXEC (inode) IS FLG(inode, MS NOEXEC) 
150 #define IS SYNC (inode) \ 


(. IS FLG(inode, MS SYNCHRONOUS) || ((inode) ^i flags & S SYNC)) 
151 #define IS MANDLOCK(inode) | JS FLG(inode, MS MANDLOCKO 


在 老 - 一 些 的 版 本 中 (从 Unix 系统 V 开始 ), 82251] inode 结构 的 mode 字段 中 S$S_ISGID f S. IXGRP 
两 个 标志 位 的 结合 来 起 MS MANDLOCK 标志 位 的 作用 。 标志 位 S_ISGID 与 S_ISUID 相似 ， 表 示 在 
月 动 一 个 可 执行 文件 时 将 进程 的 组 号 设置 成 该 文件 所 属 的 组 号 。 可 是 ， 如 果 这 个 文件 对 于 所 属 的 组 
根本 就 没有 可 执行 属性 (由 S_IXGRP RE), J S_ISGID 就 失去 了 意义 ,所 以 ,在 正常 情况 下 S. ISGID 
为 1 而 S IXGRP 73 0 KAMA AMMA MIAH. BAO, Unix 系统 版 本 V 就 利用 了 这 种 纠 合 
来 控制 强制 锁 的 使 用 。 所 以 ， 只 有 在 inode 结构 中 或 者 super. block 结构 中 的 MS_MANDLOCK 为 1， 
并 且 inode 结构 中 的 S_ISGID 为 1 而 S_IXGRP 为 0 时 才 允 许 使 用 强制 锁 , 这 就 是 901 TTT AIK HORE 
思 。 

如 果 有 日 标 文件 是 允 许 便 用 蝇 制 锁 的 ， 那 就 要 进一步 检查 是 否 岂 经 加 了 锁 。 函 数 
locks_mandatory_locked( ) 的 代码 在 fs/locks.c 中 : 


[sys_open( )> filp open( ) > open_namei( ) > locks verify locked( ) > locks mandatory. locked( )] 


675 int locks_mandatory_locked (struct inode *inode) 

676 { 

677 fl owner t owner = current->files: 

678 struct file lock *fl; 

679 

680 /* 

68] * Search the lock list for this inode for any POSTX locks. 
682 */ 

683 lock kernel( ); 

684 for (fl = inode-^i flock; fl !- NULL; fl = fl fl next) { 
685 if (C (fl->f1 flags & FL POSIX)) 

686 continue; 

687 if (fl fl owner !- owner) 

688 break; 

689 ] 

690 unlock kernel ); 

691 return fl ? -EAGAIN : 0: 

602  ] 


每 个 文件 的 inode 结构 中 都 有 个 file lock 数据 结构 队列 i_flock， 每 当 个 进程 对 一 个 文件 中 的 
个 区 间 加 锁 时 ， 就 创建 一个 file lock 数据 结构 并 将 其 挂 入 该 文件 的 inode 结构 中 。 与 file_lock 结 
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构 有 关 的 定义 在 include/linux/fs.h "P: 


533 /* 

534 * The POSIX file lock owner is determined by 

535 * the "struct files struct” in the thread group 

536 * (or NULL for no owner - BSD locks). 

537 x 

538 * Lockd stuffs a “host” pointer into this. 

539 */ 

540 typedef struct files struct *fl owner t; 

541 

542 struct file lock | 

543 struct file lock *fl next; /* singly linked list for this inode */ 
544 struct list head fl link; /* doubly linked list of all locks */ 
545 struct list head fl block; /* circular list of blocked processes */ 
546 fl owner t fl owner; 

547 unsigned int fl pid; 

548 wait queue head t fl wait; 

549 struct file *fl file; 

550 unsigned char fl flags; 

55] unsigned char fl type; 

557 loff t fl start; 

553 loff t fl end; 

554 

555 void (*fl notify) (struct file lock *); /* unblock callback */ 

556 void (Kfl insert) (struct file lock *); /* lock insertion callback */ 
557 void Ckfl remove)(struct file lock *); /* lock removal callback */ 
558 

559 struct fasync struct * fl fasync; /* for lease break notifications */ 
560 

561 union { 

562 struct nfs lock info nfs f]; 

563 } flu; 

564 Ps 


-个 file lock 结构 就 是 一 把 “ 锁 ” 结构 中 的 指针 fl file 指向 月 标 文 件 的 file 结构 ， 而 fl start 
Al fl end 就 确定 了 该 文件 中 的 一 个 区 间 ， 如 果 fl_start 为 0 而 fl end 为 OFFSET. MAX sian X 
4t. JKt5h. fltype 表示 锁 的 性 质 ， 如 读 、 写 : flflags 中 是 一 些 标志 位 ， 这 些 标志 位 的 定义 也 在 fs.h 


526 #define FL_POSIX l 

527 #define FL_FLOCK 2 

528 #define FL_BROKEN 4 /* broken flock( ) emulation */ 

529 #define FL ACCESS 8 /* for processes suspended by mandatory locking */ 
530 #define FL LOCKD 16 /* lock held by rpe. lockd */ 

531 #define FL LEASE 32 /* lease held on this file */ 
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标志 位 FL_FLOCK 为 1 表示 这 个 锁 是 通过 传统 的 flock( ) 系 统 调用 加 上 的 ， 这 种 锁 一 定 是 协调 
锁 ， 并 且 只 能 是 对 整个 文件 的 。 标 志 位 FL_POSIX 则 表示 通过 fcntl( ) 系 统 调用 加 上 的 锁 ， 它 支持 对 
文件 中 的 区 间 加 锁 。 由 于 在 POSIX 标 准 中 规定 了 这 种 对 文件 中 部 分 内 容 所 加 的 锁 , 所 以 又 称 为 POSIX 
锁 。POSIX 锁 可 以 是 协调 锁 ， 也 可 以 是 强制 锁 ， 具 体 取决 于 前 面 所 述 的 条 件 。 这 里 ， 在 
locks mandatory. locked( ) 的 代码 中 检测 的 是 强制 锁 ， 所 以 只 关心 FL, POSIX 标志 位 为 1 的 那些 数据 


ô 


回 到 open_namei ) 的 代码 中 ， 如 果 口 标 文件 并 未 加 上 强制 锁 ， 就 可 以 通过 do. truncate( ) 执 行 截 
尾 了 ， 其 代码 在 fs/open.c 中 : 


[sys open( ) > filp open( ) > open_namei( ) > do_truncate( )] 


12 
73 
74 
75 
76 
TT 
78 
14 
80 
81 
82 
83 
84 
85 
86 
81 
88 


h: 


int do_truncate (struct dentry *dentry, loff_t length) 


{ 


} 


struct inode *inode = dentry—>d_inode; 
int error; 
struct iattr newattrs; 


/* Not pretty: "inode-^i size" shouldn't really be signed. But it is. */ 
if (length < 0) 
return -EINVAL; 


down(&inode-^i sem); 

newattrs.ia size = length; 

newattrs.ia valid - ATTR SIZE | ATTR CTIME; 
error = notify change(dentry, &newattrs); 
up(&inode-^i sem); 

return error; 


参数 length 为 截 尾 后 残留 的 长 度 ， 从 open. namei( ) 中 传 下 来 的 参数 值 为 0， 表示 全 部 切除 。 代 和 码 
中 先 准 备 一 个 iattr 结构 , 然后 就 通过 notify_change( ) 来 完成 操作 .函数 notify. change( ) 的 代码 在 fs/attr.c 


[sys_open( ) > filp open( ) > open namei( ) > do_truncate( ) > notify_change( )] 


106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 


int notify change(struct dentry * dentry, struct iattr * attr) 


| 


struct inode *inode = dentry-^d inode; 
int error; 

time_t now = CURRENT TIME; 

unsigned int ia_valid = attr->ia valid; 


if (linode) 
BUG ( ) ; 


attr-^ia ctime = now; 
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117 if (1 (ia valid & ATTR ATIME SET) ) 

118 attr- ->ia atime ~ now; 

119 if (! (ia valid & ATTR MTIME SET)) 

120 attr-»ia mtime = now; 

121 

122 lock kernel ( ); 

123 if (inode->i_op && inode >i op-^setattr) 

124 error - inode->i op-»setattr(dentry, attr); 
125 else { 

126 error = inode change ok(inode, attr); 

127 if (lerror) 

128 inode setattr(inodo, attr); 

129 } 

130 unlock kernel( ); 

131 if (lerror) { 

132 unsigned long dn mask - setattr mask(ia valid); 
133 if (dn mask) 

134 inode dir notify (dentry->d parent-^d inode, dn mask); 
135 } 

136 return error; 

137. ]J 


这 时 的 只 的 是 改变 inode 结构 中 的 一 些 数据 ， 以 及 执行 伴随 着 这 些 改 变 的 操作 。 这 些 操作 种 第 是 
因 文 件 系 统 而 异 的 ， 所 以 具体 的 文件 系统 可 以 通过 其 inode_operations 数据 结构 提供 用 丁 这 个 日 的 的 两 
数 ( 指 针 )。 就 Ext2 文件 系统 而 言 , 它 并 未 提供 这 样 的 函数 ,所 以 通过 inode_change_ok( ) 和 inode_setattr( ) 
PY RAR SEMIS THE. PRL inode_change_ok( ) 主 要 是 对 权限 的 检验 ， 其 代码 侍 fs/attr.c 中 ,我们 把 
它 留 给 读者 日 己 阅读 。 


[sys open( ) > filp open( ) > open, namci( ) > do truncate( ) > notify change( ) » inode change ok( )] 


17 /* POSIX UID/GID verification for setting inode attributes. */ 


18 int inode change ok(struct inode *inode, struct iattr *attr) 
19 { 

20 int retval = —EPERM; 

21 unsigned int ia valid = attr->ia_valid; 

22 

23 /* If force is set do it anyway. */ 

24 if (ia valid & ATTR FORCE) 

25 goto finc; 

26 

27 /* Make sure a caller can chown. */ 

28 if ((ia valid & ATTR_UID) && 

29 (current-^fsuid != inode: >i uid | 

30 atir-»ia uid != inode->i_uid) && !capable (CAP_CHOWN) ) 
ol golo error; 

32 

33 /* Make sure caller can chgrp. */ 
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34 if ((ia valid & ATTR GID) && 

35 (lin group p(attr->ia_gid) && attr-^ia gid != inode->i gid) && 
36 ! capable (CAP_CHOWN) ) 

37 goto error; 

38 

39 /* Make sure a caller can chmod. */ 

40 if (ia valid & ATTR MODE) { 

4] if ((current->fsuid != inode-^i uid) && !capable(CAP FOWNER)) 
42 goto error; 

43 /* Also check the setgid bit! */ 

44 if (lin group p((ia valid & ATTR GID) ? attr-^ia gid : 

45 inode-^i gid) && !capable(CAP FSETID)) 

46 attr-^ja mode &- "S ISGID; 

4T ) 

48 

49 /* Check for setting the inode time. */ 

50 if (ia valid & (ATTR MTIME SET | ATTR ATIME SET)) { 

51 if (current-^fsuid != inode->i uid && !capable(CAP FOWNER)) 
52 goto error; 

53 } 

54 fine: 

55 retval = 0: 

56 error: 

57 return retval; 

58} 


EKZ inode_setattr( OR RISB ÆR) -文件 attrc P: 
[sys open( ) > filp open( ) > open_namei( ) > do_truncate( ) > notify change( ) > inode_setattr( )] 


60 void inode setattr(struct inode * inode, struct iattr * attr) 





61 { 
62 unsigned int ia valid = attr->ia valid; 
63 
64 if (ia valid & ATTR UTD) 
65 inode >i uid = attr-^ia uid; 
66 if (ia valid & ATTR GID) 
67 inode->i_gid = attr-^ia gid; 
68 if (ia valid & ATTR SIZE) 
| 69 vmtruncate (inode, attr->ia size); 
| 70 if (ia valid & ATTR ATIME) 
| 71 inode->i_ atime ~ attr-^ia atime: 
7 72 if (ia_valid & ATTR MTIME) 
| 73 inode->i mtime = attr ^ia mtime; 
| 74 if (ia valid & ATTR CTIME) 
| 75 inode->i ctime = attr >ia etime; 
76 if (ia valid & ATTR MODE) | 
77 inode->i_mode = attr-^ia mode; 
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78 if (tin group p(inode->i gid) && 'capable(CAP FSETID)) 
79 inode-^i mode &- ^S ISGID; 

80 } 

81 mark inode dirty (inode) ; 

82} 


我 们 在 这 里 关心 的 只 是 文件 大 小 的 改变 , 这 个 改变 及 其 伴随 操作 是 通过 vmtrancate( ERR. PA 
数 vmtrancate( ) 所 完成 的 操作 以 及 它 的 代码 都 与 文件 的 读 写 关系 更 为 密切 , 所 以 我 们 把 这 个 函数 留 到 
“文件 的 读 写 ”一 节 中 再 来 深入 阅读 。 

最 后 ， 由 于 inode 结构 的 内 容 改 变 了 ， 所 以 要 道 过 mark_inode_dirty( tc FIAT IB super_blodk 
结构 的 s_dirty 队列 中 。 

至 此 对 目标 文件 所 进行 的 操作 都 已 完成 ， 但 是 代表 着 当前 进程 与 目标 文件 的 连接 的 file 结构 却 
尚未 建立 。 

返回 到 filp_open( ) 的 代码 中 以 后 ， 下 一 个 要 调用 的 函数 是 dentry_open( )， 它 的 任务 就 是 建立 起 
目标 文件 的 一 个 “上 下 文 ”” E file 数据 结构 ， 并 计 它 与 当前 进程 的 task. sturct HEE, MAK 
文件 驻 在 当前 进程 task. struct 结构 中 的 一 个 代表 。 函 数 dentry_open( ) 的 代码 在 fs/open.c 中 : 


[sys_open( ) > flp_open( ) > dentry_open( )] 


632 struct file *dentry_open(struct dentry *dentry, struct vfsmount *mnt, 
int flags) 


633 { 

634 struct file * f; 

635 struct inode *inode; 

636 int error: 

637 

638 error = -ENFILE; 

639 f = get empty filp( ); 

640 if (1f) 

641 goto cleanup dentry; 

642 f—f flags - flags; 

643 f—f mode = (flags*1) & O ACCMODE; 
644 inode = dentry-?d inode; 

645 if (f->f mode & FMODE WRITE) { 
646 error = get write_access (inode) ; 
647 if (error) 

648 goto cleanup file; 

649 } 

650 

651 f->f dentry = dentry; 

652 f->f_vfsmnt = mnt; 

653 f->f_pos = 0; 

654 f-^f reada = 0; 

655 f->f op = fops get (inode->i_fop) ; 
656 if (inode->i_sb) 

657 file move(f, &inode—i_sb->s_files) ; 
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658 if (f->f_op && f->f op-^open) { 
659 error = f—f op-^open(inode, f) ; 
660 if (error) 

661 goto cleanup all; 

662 } 

663 f->f flags &- ^(0 CREAT | O EXCL | O NOCTTY | 0_TRUNC) ; 
664 

665 return f; 

666 

667 cleanup all: 

668 fops put(f—f op); 

669 if (f-f mode & FMODE WRITE) 
670 put write access(inode); 
671 f->f_dentry = NULL; 

672 f->f_vfsmnt = NULL; 

673 cleanup_file: 

674 put filp(f); 

675 cleanup dentry: 

676 dput (dentry) ; 

677 mntput (mnt) ; 

678 return ERR PTR(error) ; 

679 } 


顾名思义 ，get_empty_filp( ) 的 作用 就 是 分 配 一 个 空闲 的 file 数据 结构 。 内 核 中 有 一 个 字 闪 file 
结构 的 队列 free_list， 需 要 file 结构 时 就 从 该 队列 中 摘 下 一 个 ， 并 将 其 暂时 挂 入 一 个 中 间 队 列 
anon_list。 在 确认 了 对 该 文件 可 以 进行 写 操作 以 后 ， 就 对 这 个 空闲 file 结构 进行 初始 化 ， 然 后 通过 
file move( ) 将 其 从 中 间 队 列 脱 链 而 挂 入 该 文件 所 在 设备 的 suber_block 结构 中 的 file 结构 队列 s_files。 

函数 get_write_access( ) 一 方面 检查 该 文件 是 否 因 内 存 映射 而 不 允许 常规 的 写 访 问 ， 男 一 方面 如 
果 人 允许 常规 的 写 访问 就 递增 inode 结构 中 的 计数 器 i_writecount， 以 此 来 保证 常规 的 文件 写 访问 与 内 
存 映 射 的 文件 写 访问 之 间 的 互 斥 ， 其 代码 读者 已 在 前 血 看 到 过 。 

读者 已 经 熟知 ，file 结构 中 的 指针 fop 指向 所 属 文件 系统 的 file operations 数据 结构 。 这 个 指针 
就 是 在 这 里 设置 的 ， 而 具体 的 file_operations 结构 指针 则 来 自 相应 的 inode 结构 。 但 是 ， 如 果 相 应 文 
件 系 统 是 由 可 安装 模块 支持 的 就 需要 递增 该 模块 的 使 用 计数 。 这 里 的 fops_get( ) 是 个 宏 操 作 , 定义 于 


include/linux/fs.h: 





859 /* Alas, no aliases. Too much hassle with bringing module.h everywhere */ 
860 #define fops get(fops) \ 

861 (((fops) && (fops)—>owner) \ 

862 ? ( try inc mod_count((fops)—>owner) ? (fops) : NULL ) \ 

863 : (fops)) 


具体 的 文件 系统 还 可 能 对 打开 文件 有 些 特殊 的 附加 操作 , 如 果 有 就 通过 其 file operations 结构 
中 的 函数 指针 open 提供 .就 Ext2 文件 系统 而 言 ,这 个 函数 就 是 ext2_open_file( ), 其 代码 在 fs/ext2/file.c 
中 : 
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[sys_open( ) > filp open( ) > dentry_open( ) > ext2 open file( )] 


82 /* 

83 * Called when an inode is about to be open. , 

84 * We use this to disallow opening RW large files on 32bit systems if 
85 * the caller didn't specify O LARGEFILE. On 64bit systems we force 
86 * on this flag in sys_open. 

87 */ 


88 static int ext2 open file (struct inode * inode, struct file * filp) 
89 { 


90 if (!(filp>f flags & O LARGEFILE) && 
91 jnode-^i size > Ox7FFFFFFFLL) 

92 return —EFBIG; 

93 return 0; 

94 ] 


大 家 知道 ，inode 结构 中 有 个 union， 对 于 Ext2 文件 系统 这 个 union 被 用 作 ext2, inode info 数据 
结构 。 在 这 个 数据 结构 中 有 个 字段 i_high_size， 当 文件 的 大 小 超过 32 位 整数 (2GB) 时 这 个 字段 的 
值 为 文件 大 小 的 高 32 位 。 刀 果 文 件 的 大 小 真 的 超过 32 位 ， 则 在 系统 调用 open ) 的 参数 中 要 将 个 
标志 位 O_LARGEFILE 置 成 1， 这 是 为 64 位 系统 结构 考虑 而 设置 的 。 件 inode 结构 中 男 有 :个 表示 
文件 人 小 的 字段 i_size， 其 类 型 为 loff_ t， 实 际 上 是 long long， 即 64 位 整数 。 如 果 O LARGEFILE 
为 0， 则 文件 大 小 必须 小 十 2GB。 

RE. HABA PA O_CREAT，O_EXCL 等 标志 位 已 经 不 再 需要 了 ， 央 为 它们 只 二 对 打开 文 
件 有 作用 ， 市 坝 在 文件 已 经 打开 ， 所 以 就 把 这 些 标志 位 清 0。 

函数 dentry_open( ) 返 回 指 向 新 建立 的 file 数据 结构 的 指针 。 每 进行 一 次 成 功 的 open ) 系 统 调 用 
就 为 有 征 标 文件 建立 起 一 个 由 fe 结构 代表 的 上 下 文 , 而 与 该 文件 是 个 已 经 有 其 他 的 file 结构 无 关 。 一 
个 文件 在 内 核 中 只 能 有 一 个 inode 结构 ， 却 可 以 有 多 个 file 结构 。 

XX FE, filp open ) 的 操作 就 完成 了 。 回 到 sys_open( ) 的 代码 中 ,下 面 还 有 个 inline KZ. fd. install) 
的 作用 是 将 新 建 的 file 数据 结构 的 指针 “安装 ”到 当前 进程 的 fie struct 结构 中 ， 确 切 地 说 是 里 出 
的 已 打开 文件 指针 数组 中 ， 鞭 位 置 即 下 标 fi， 已 经 在 前 面 分 配 好 。 该 inline 函数 的 代码 在 
include/linux/file.h FP: 


[sys open( ) > fd install( )] 


74 /[* 

75 * Install a file pointer in the fd array. 

76 * 

TT * The VFS is full of places where we drop the files lock between 

78 * setting the open fds bitmap and installing the file in the file 

19 * array. At any such point, we are vulnerable to a dup2( ) race 

80 * installing a file in the array before us. We need to detect this and 
8l * fput( ) the struct file we are about to overwrite in this case. 

82 * 

83 * It should never happen - if we allow dup2( ) do it, really bad things 
84 * will follow. 
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85 */ 

86 

87 static inline void fd install(unsigned int fd, struct file * file) 
88 f 


89 struct files struct *files = current->files: 
90 

91 write lock(&files-^file lock); 

92 if (files fd[fd]) 

93 BUG( ) ; 

94 files—>fd[fd] = file; 

95 write unlock(&files-^file lock): 

96 } 


代码 的 作者 如 了 注释 ， 说 明 为 什么 不 是 简单 地 将 指针 file 填 入 数组 中 指定 的 位 置 上 ， 而 要 通过 
xchg( ) 把 这 个 位 置 上 原 有 的 内 容 交换 出 来 .如 果 交 换 出 来 的 指针 非 0 就 说 明 已 经 有 个 file 结构 指针 在 
这 个 位 置 上 ， 所 以 要 通过 fput( ) 将 其 释放 。 从 此 ， 当 前 进程 与 月 标 文件 之 间 就 建立 起 了 连接 ， 可 以 
道 过 这 个 特定 的 上 下 文 访问 该 日 标 文 件 了 。 

看 完了 sys open ) 的 主体 ， 我 们 还 时 回 过 头 去 看 一 下 vfs_create( ) 的 代码 ， 当 系统 调用 open( ) 的 
参数 中 O_CREAT 标志 位 为 1, 而 目标 文件 又 不 存在 时 ,就 要 通过 这 个 函数 来 创建 ,其 代码 在 fs/namei.c 
iL, 


[sys_open( ) > filp open( ) > open_namei( ) > vfs_create( )] 


898 int vfs create(struct inode *dir, struct dentry *deniry, int mode) 


899 d 

900 int error; 

901 

902 mode &- S. [ALLUGO & ^current-^fs-^umask; 
903 mode [= S IFREG: 

904 

905 down (&dir->i_ zombie) : 

906 error = may create(dir, dentry); 

907 if (error) 

908 goto exit lock; 

909 

910 error = -EACCES; /* shouldn't it be ENOSYS? x/ 
911 if (Idir-i op || !dir—>i_op->create) 
912 goto exit lock; 

913 

914 DQUOT_INIT (dir) ; 

915 lock_kernel ( ); 

916 error = dir~->i_op->create(dir, dentry, mode): 
917 unlock kernel ( ); 

918 exit_lock: 

919 up (&dir->i_ zombie); 

920 if (lerror) 
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921 inode dir notify(dir, DN CREATE); 
922 return error; 
923 ) 


参数 dir 指向 所 在 目录 的 inode 结构 ， 而 dentry 则 指向 待 创建 文件 的 dentry 结构 。 但 是 ， 此 时 待 

创建 文件 尚 无 inode 结构 ， 所 以 其 dentry 结构 中 的 d inode 指针 为 0， 这 样 的 dentry 结构 称 为 是 
“negative” 的 dentry 结构 。 

每 个 进程 都 有 个 “文件 访问 权限 屏蔽 ”umask， 记 录 在 其 fs, struct 结构 中 (task_struct 结构 中 的 
指针 fs 指向 这 个 数据 结构 )。 这 是 一 些 对 于 文件 访问 权限 的 屏蔽 位 ， 其 格式 与 表示 文件 访问 权限 的 
mode 相同 。 如 果 umask 中 的 某 一 位 为 1， 则 由 此 进程 所 创建 的 文件 就 把 相应 的 访问 权限 “ 屏 玻 ” 掉 。 
例如 :如果 -个 进程 的 umask 为 077， 则 由 它 所 创建 的 文件 只 能 由 文件 主 使 用 ， 因 为 对 同 组 人 及 其 
他 用 户 的 访问 权限 全 给 屏蔽 掉 了 。 进 程 的 umask 代 代 相传 ， 但 是 可 以 通过 系统 调用 umask( ) 加 以 改 
变 。 代 码 中 第 902 行 和 第 903 行 说 明了 怎样 根据 调用 参数 mode 和 进程 的 umask 确定 所 创建 文件 的 
访问 模式 。 这 里 的 常数 S_IALLUGO 定义 见 文件 incluce/linux/stat.h: 


20 #define S_ISUID 0004000 
21 #define S_ISGID 0002000 
22 #define S_ISVTX 0001000 


50 #define S IRWXUGO (S_IRWXU|S_IRWXG|S_IRWXO) 
ol define S TIALLUGO — (S ISUID|S TSGID|S ISVTX:S IRWXUGO) 


这 些 标志 位 的 意义 都 已 在 “文件 系统 的 访问 权限 与 安全 性 ”一 节 中 介绍 过 。 

不 言 而 喻 ， 创 建文 件 时 要 改变 其 所 在 目录 的 内 容 。 这 个 过 程 不 容许 受 其 他 进程 打扰 ， 所 以 旧 放 
在 临界 区 中 完成 。 为 此 目的 ， 在 inode 数据 结构 中 提供 了 一 个 信号 量 i_zombie。 进 入 临界 区 后 ， 先 要 
检查 当前 进程 的 权限 ， 看 看 是 否 允 许 在 所 在 的 目录 中 创建 文件 。 代 码 中 的 may_create( ) 是 个 inline K 
数 ， 其 代码 存 fs/namei.c 中 : 


[sys_open( ) > filp open( ) > open_namei( ) > vfs create( ) > may_create( )] 


860  /* Check whether we can create an object with dentry child in directory 


861 * dir. 

862 * 1. We can t do it if child already exists (open has special treatment for 
863 * this case, but since we are inlined it's OK) 

864 * 2. We can’t do it if dir is read-only (done in permission( )) 

865 * 3. We should have write and exec permissions on dir 

866 * 4. We can t do it if dir is immutable (done in permission( )) 

867 */ 

868 static inline int may create(siruct inode *dir, struct dentry *child) { 
869 if (child->d_ inode) 

870 return -EEXTST; 

871 if (IS DEADDIR(dir)) 

872 return -ENOENT; 

873 return permission(dir,MAY WRITE | MAY EXEC); 

874  ] 
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这 里 IS DEADDIR( ) 检 查 目 标 文件 所 在 的 目录 是 否 实际 上 已 被 删除 ， 其 定义 见 文件 
include/linux/fs.h: 


129 #define S DEAD (1<<16) /* removed, but still open directory */ 
159 #define IS DEADDIR(inode) ((inode)->i flags & S DEAD) 


MPR ICE, HKE ASR inode 结构 中 i flags 字段 的 S_ DEAD 标志 位 设 成 1。 但 是 ， 如 果 当 
时 其 dentry 结构 和 inode 结构 的 共享 计数 不 能 递 降 到 0 则 不 能 将 这 两 个 数据 结构 释放 。 所 以 ， 存 在 
AAAF- -种 可 能 性 ， 就 是 在 当前 进程 通过 path_walk( ) 找 到 了 所 在 目录 的 dentry 结构 和 inode 结构 之 
后 ， 在 试图 进入 由 信和 号 量 i zombie 构成 的 临界 区 叶 进 入 了 竹 眠 而 此 时 止 在 临界 区 中 的 另 个 进程 
却 删 除了 这 个 目录 。 不 过 ，… 旦 当前 进程 进入 了 痢 办 区 以 后 ， 就 再 木 会 发 生 这 种 情况 了 。 

通过 了 访问 权限 的 检验 以 后 ， 具 体 创建 文件 的 操作 则 因 文 件 系统 而 异 ， 每 种 文件 系统 都 通过 其 
inode operations 结 移 提供 用 于 创建 文件 的 消 数 。 就 Ext2 文件 系统 而 言 ， 这 个 函数 为 ext2_create( ), 
是 在 fs/ext2/namei.c 中 定义 的 : 


[sys_open( ) > filp open( ) > open namei( ) > vfs create( ) > ext2_create( )] 


354 f* 

355 * By the time this is called, we already have created 

356 * the directory cache entry for the new file, but it 

397 * is so far negative - it has no inode. 

358 * 

359 * [f the create succeeds, we fill in the inode information 
360 * with d instantiate( ). 

361 */ 


362 Static int ext2_create (struct inode * dir, struct dentry * dentry, int mode) 
363 { 


364 struct inode * jnode = ext2 new inode (dir, mode): 
365 int err = PTR ERR (inode); 

366 if (IS ERR (inode) ) 

367 return err; 

368 

369 inode-^i op = &ext2 file inode operations; 

370 inode—>i_fop = &ext2 file operations; 

371 inode->i_mapping->a_ops = kext2 aops; 

372 inode->i mode = mode; 

373 mark inode dirty (inode) ， 

374 err = ext2 add entry (dir, dentry-^d name. name, dentry-?d name. len, 
375 inode) ; 

376 if (err) { 

377 inode->i_nlink--; 

378 mark inode dirty (inode) : 

379 iput (inode) ; 

380 return err: 

381 } 
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d instantiate(dentry, inode) ; 
return Q; 


| 


简 埋 之 ， 就 是 通过 ext2_new_inode( ) 创 建 晶 标 文件 在 存储 设备 上 的 索引 节点 和 在 内 存 中 的 inode 
， 然 后 通过 ext2_add_entry( ) 把 目标 文件 的 文件 名 与 索引 节点 号 写 入 其 所 在 的 月 录 〈 也 是 一 个 文 
中 ， 最 后 山 d instantiate ) 将 日 标 文 件 的 dentry 结构 和 inode 结构 联系 在 一起。 注意 inode 4#) 
i op 和 i fop 师 个 重要 指针 都 是 在 这 里 设置 的 ， 还 有 其 a_ops 所 指 的 address. space 结构 中 的 指 


针 a, ops 也 是 在 这 里 设置 的 。 


先 看 ext2_new_inode( )， 其 代码 在 fs/ext2/ialloc.c 中 。 因 为 比较 长 ， 我 们 分 段 来 看 。 


[sys_open( ) > filp open( ) > open, namei( ) > vfs create( ) > ext2 create( ) » ext2 new. inode( )] 


249 
290 
251 
292 
253 
254 
255 
256 
291 
208 
290 
260 
261 
262 
263 
264 
265 
266 
261 
268 
260 
210 
241 
272 
273 
274 
215 
216 
21T 
218 
279 
280 


wW 
* 


There are two policies for allocating an inode. If the new inode is 

a directory, then a forward search is made for a block group with both 
free space and a low directory-to-inode ratio; if that fails, then of 
the groups with above-average free space, that group with the fewest 
directories already is chosen. 


For other inodes, search forward from the parent directoryX s block 
group to find a free inode. 


* 0*0 X X 关 X* KF 区 


*/ 
struct inode * ext2 new inode (const struct inode * dir, int mode) 
{ 
struct super block * sb; 
struct buffer head * bh; 
struct buffer head * bh2; 
int i, j, avefreel; 
struct inode * inode; 
int bitmap nr; 
struct ext2 group desc * gdp; 
struct ext2 group desc * tmp; 
struct ext2 super block * es; 
int err; 


/* Cannot create files in a deleted directory */ 
if (dir !| !dir-^i nlink) 
return ERR PTR(-EPERM) ; 


sb = dir->i_sb; 
inode = new_inode (sb) ; 
if (inode) 
return ERR PTR(-ENOMEM) ; 


参数 dir 指向 所 在 日 录 的 inode 结构 ,这 个 结构 中 的 i_nlink 表示 有 几 个 日 录 项 与 这 个 inode 结构 
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相 联系 。 
相对 而 言 ， 在 内 存 中 分 配 -一 个 inode 结构 是 比较 简单 的 ， 这 里 的 new_inode( ) 是 个 inline 函数 ， 
定义 于 include/linux/fs.h. 


1192 static inline struct inode * new inode(struct super block xb) 
11933 { 

1194 struct inode *inode - get empty inode( ); 

1195 if (inode) { 

1196 inode->i_sb = sb; 

1197 inode-^i dev = sb-»s dev; 

1198 } 

1199 return inode; 

1200 } 


函数 get empty inode( ) 将 分 配 的 空白 inode 结构 挂 入 内 核 中 的 inode_in use BAX), HAIT 
fs/inode.c 中 ， 我 们 把 它 留 给 读者 自己 阅读 。 

下 一 步 要 做 的 是 为 目标 文件 在 存储 设备 上 分 和 遇 一 个 索引 节点 。 函 数 ext2_new_inode( ) 并 不 是 单 
纯 用 米 创建 普通 文件 的 ， 它 也 用 来 创建 目录 (当然 ， 目 录 实 际 上 也 是 文件 ， 但 是 毕竟 有 些 不 同 ， 目 
录 是 通过 mkdir( ) 系 统 调用 创建 的 )。 实 际 上 ， 调 用 这 个 函数 的 地 方 不 光 是 ext2_create( )， 还 有 
ext2_mknod( )、ext2_mkdir( ) 以 及 ext2_symlink( )。 代 码 的 作者 在 函数 的 前 面 加 了 注释 ， 说 对 丁 日 录 
和 普通 文件 采取 了 不 同 的 分 配 策略 。 下 面 读 者 就 会 具体 看 到 。 

以 前 讲 过 ， 现 代 的 块 设备 通常 者 是 很 人 的 。 为 了 提高 访问 效率 ， 就 把 存储 介质 划分 成 许多 “ 块 
A”, - 般 米 说 ， 文 件 就 应 该 与 其 所 在 月 录 在 储 在 同一 个 块 组 中 ， 这 样 才 能 提高 效率 。 另 一 方面 ， 文 
件 的 内 容 和 文件 的 索引 节点 也 应 存储 在 同一 块 组 中 ， 所 以 在 创建 文件 系统 (格式 化 》 时 已 经 注意 到 
了 每 个 块 组 在 索引 节点 和 记录 块 数量 之 间 的 比例 ， 这 个 比例 是 从 统计 信息 得 来 的 ， 取 次 于 平均 的 文 
件 大 小 。 此 外 ， 根 据 统 计 ， 每 “个 块 组 中 平均 有 多 少 个 日 录 ， 也 就 是 说 每 个 日 录 中 平均 有 多 少 文 件 ， 
ERA 上 有 个 比例 。 所 以 ， 如 果 要 创建 的 是 文件 ， 就 应 该 首先 考虑 将 它 的 索引 节点 分 配 在 其 所 在 目 
录 所 处 的 块 组 中 。 负 如 果 妆 创建 的 是 口 录 ， 则 时 考虑 将 来 是 否 能 将 其 属 下 的 文件 部 容纳 在 同一 块 组 
中 ， 所 以 应 该 找 一 个 其 空闲 索引 节点 的 数量 超过 整个 设备 上 的 平均 值 这 么 个 块 组 ， 而 不 惜 离 开 上 其 
父 节 点 所 在 的 块 组 “另起炉灶 ”。 了 解 了 这 些 背 景 ， 读 者 应 该 可 以 读 懂 下 面 这 段 程序 了 。 注意 282 d] 
使 指针 es 指向 该 文件 系统 超级 块 的 缓冲 区 。 党 着 ext2_new_inode( ) 继 续 往 下 看 (ialloc.e:): 


[sys_open( ) > filp open( ) > open namei( ) > vfs create( ) > ext2_create( ) > ext2_new_inode( )] 


281 lock super (sb); 
282 es = sh->u. cxt2 sb.s es; 
283 repeat: 
284 gdp = NULL; i-0; 
285 
286 if (S ISDIR(mode)) | 
. 287 avefreei = le32 to cpu(es-^s free inodes count) / 
208 Sb-^5u. ext2 sb.s groups count; 
289 /* I am not yet convinced that this next bit is necessary. 
290 i = dir >uext2 i.i block group; 
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291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 
308 
309 
310 
311 
312 
313 
314 
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316 
317 
318 
319 
320 
321 
322 
323 
324 
325 
326 
327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
337 
338 
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for (j = 0: j < sb—-u. ext2 sb.s groups count; j++) { 
tmp = ext2 get group desc (sb, i, &bh2); 
if (tmp && 


lei6 to cpu(tmp->bg free inodes count)) { 


gdp = tmp; 
break; 
} 
else 
i = ++i % Sb->u. ext2_sb.s groups count; 
} 
*/ 
if (gdp) ( 
for (j = 0: j < sb->u. ext2_sb.s_groups_count; j++) { 
tmp = ext2 get group desc (sb, j, &bh2) ; 
if (tmp && 
lel6 to cpu(tmp-^bg free inodes count) && 
lel6 to cpu(tmp— bg free inodes count) >=avefreei) { 
if (!gdp || 
(lel6 to cpu(tmp->bg free blocks count) > 
lel6 to cpu(gdp—bg free blocks count))) | 
NE 
gdp - tmp; 
} 
} 
} 
} 
} 
else 
{ 
/* 
* Try to place the inode in its parent directory 
*/ 


i = dir->u. ext2 i.i block group; 
tmp = ext2 get group desc (sb, i, &bh2); 
if (tmp && lel6 to cpu(tmp-^bg free inodes count)) 
gdp = tmp; 
else 
{ 
/* 
* Use a quadratic hash to find a group with a 
* free inode 
*/ 
for (j = Il; j < sb->u. ext2 sb. s groups count; j <<= 1) 1 
pore 
if (i >= sb-^u.ext2 sb.s groups count) 
i -= sb >u.ext2 sb.s groups count; 
tmp = ext2 get group desc (sb, i, &bh2); 
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339 if (tmp && 

340 lel6 to cpu(tmp-^?bg free inodes count)) { 
341 gdp = tmp; 

342 break; 

343 } 

344 } 

345 } 

346 if (!gdp) { 

347 /* 

348 * That failed: try linear search for a free inode 
349 */ 

350 i = dir->u. ext2 i.i block group + 1; 

351 for (j = 2; j < sb->u. ext2 sb.s groups count; j++) { 
352 if (++i >= sb-^u.ext2 sb.s groups count) 

353 i = 0; 

354 tmp = ext2 get group desc (sb, i, &bh2); 

355 if (tmp && 

356 lel6 to cpu(tmp->bg free inodes count)) { 
357 gdp - tmp; 

358 break; 

359 } 

360 } 

361 } 

362 } 

363 

364 err = -ENOSPC.; 

365 if (gdp) 

366 goto fail; 

367 

368 err = ~-ETQ; 

369 bitmap nr = load inode bitmap (sb, i); 

370 if (bitmap nr < 0) 

371 goto fall; 

312 


对 于 所 创建 日 标 为 日 录 的 情景 ， 代 码 作者 “不 知 是 否 原作 者 ) 把 290 fr 301 THANE, 
说 不 相信 这 是 有 必要 的 。 不 过 ， 依 我 们 看 这 倒是 有 好 处 的 :如果 一 个 块 组 里 且 录 的 数量 与 空闲 索引 
节操 的 数量 之 比 小 于 1/256 (A 293 行 )， 则 所 创建 日 录 (不 包括 其 子 自 录 ) 能 够 容纳 在 这 个 块 组 里 
的 概率 应 该 是 很 高 的 。 这 样 做 也 有 利于 减少 “另起炉灶 ”的 次 数 ， 而 让 子 目 录 尽 量 留 在 父 目 录 所 在 
的 块 组 里 。 

确定 了 将 索引 节点 分 配 在 哪 :个 块 组 中 以 后 ， 号 要 从 该 块 组 的 索引 节点 位 图 中 分 配 一 个 节点 了 
(ialloc.c: )。 


[sys_open( ) > filp open( ) > open, namei( ) > vfs create( ) > ext2_create( ) > ext2_new_inode( )] 


373 bh = sb->u. ext2_sb. s_inode bitmap[bitmap_nr]; 
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374 if ((j = ext2 find first zero bit ((unsigned long *) bh->b data, 
375 EXT2 INODES PER GROUP(sb))) < 

316 EXT2 INODES PER GROUP(sb)) { 

377 if (ext2 set bit (j, bh->b_data)) { 

378 ext2 error (sb, "ext2 new inode’, 

379 "bit already set for inode %d”, j); 
380 goto repeat; 

381 } 

382 mark buffer dirty (bh); 

383 if (sb-»s flags & MS SYNCHRONOUS) { 

384 il rw block (WRITE, 1, &bh); 

385 wait on buffer (bh); 

386 } 

387 } else { 

388 if (lel6 to cpu(gdp-^bg free inodes count) != 0) | 
389 ext2 error (sb, "ext2 new inode", 

390 "Free inodes count corrupted in group %d", 
391 i 

392 /* Is it really ENOSPC? */ 

393 err = -ENOSPC; 

394 if (sb->s flags & MS RDONLY) 

395 goto fail; 

396 

397 gdp-^bg free inodes count = 0; 

398 mark buffer dirty (bh2) ; 

399 ) 

400 goto repeat; 

401 ] 


在 前 一 节 中 提 到 过 ，super_block 内 的 ext2, sb. info 结构 中 有 一 个 索引 节点 位 图 缓冲 区 .的 指针 数 
组 ， 用 来 缓冲 存储 若干 个 块 组 的 位 图 。 当 需要 使 用 基 个 块 组 的 索引 节点 位 图 时 ， 就 先 在 这 个 数组 中 
找 ， 若 找 不 到 再 从 设备 上 拒 这 个 块 组 的 位 图 恋 入 缓冲 区 中 ， 并 让 该 数组 中 的 某 个 指针 指 同 这 个 缓冲 
区 。 这 是 由 load_inode_bitmap( ) 完 成 的 ， 其 代码 也 在 fs/ext2/ialloc.c T, RAJEC HAHAH OA. 

取得 了 日 标 块 弓 的 索引 节点 位 图 以 后 ， 就 遂 过 ext2_find_first_zero_bit( ) 从 位 图 中 找到 一 位 仍然 
为 0 的 位 ， 也 就 是 找到 一 个 空闲 的 索引 节点 。 - 般 情 况 下 ， 这 是 不 会 失败 的 ， 因 为 该 块 组 的 描述 结 
构 已 经 告诉 我 们 有 空闲 节点 。 

所 谓 从 位 图 中 分 配 一 个 索引 节点 ， 就 是 通过 ext2_set_bit( ) 将 其 对 应 位 设置 成 1|。 这 是 一 个 宏 操 
作 ， 定 义 于 include/asm-i386/bitops.h 


248 Hdefine ext2 set bit |. test and set bit 


也 就 是 说 , ext2. set. bit( ) 一 方面 将 位 图 中 的 某 一 位 设 成 1. AAA Ae 位 原 来 十 合 为 1， 
如 果 症 就 说 明 有 了 冲突 ， 因 而 上 要 goto 转 同 到 标号 repeat 处 另行 寻找 。 否 则 ， 如 果 和 一 切 顺 利 ， 索 引 节 
点 的 分 配 就 成 功 了 了 ， 此 时 要 立即 把 该 索引 节点 所 人 在 记录 块 的 缓冲 区 标志 成 “ 脏 ”。 如果 super block 
结构 的 s_flags 中 的 MS_SYNCHRONOUS 标志 位 为 1， 则 立即 要 通过 ]L_rw_block( ) 把 改变 了 的 记录 
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块 写 同 磁盘 并 等 待 其 完成 。 函数 H nw. block( ) 的 代码 在 drivers/block/1_rw_blk.c P, 这 已 经 是 属于 设 
备 驱 动 层 的 内 容 了 ， 所 以 我 们 把 它 留 给 下 册 块 设备 驱动 一 章 。 

但 是 ， 尽 管 块 组 的 描述 结构 告诉 我 们 有 空 采 节点 ，ext2_find_first_zero_bit( ) 还 是 有 可 能 失败 ， 因 
为 块 组 的 描述 结构 有 可 能 已 经 损坏 了 ， 这 往往 发 牛 在 机 器 在 运行 时 中 途 断 电 ， 或 者 用 户 不 按 规定 程 
序 关 机 的 情况 下 。 通 常 在 这 种 情况 发 生 后 再 次 开机 时 系统 会 检测 到 文件 系统 “不 干净 ”而 强制 进行 
一 次 文件 系统 检验 (fsck)。 并 日 ， 作 为 安全 措施 ， 在 一 个 文件 系统 顺利 安装 了 一 定 次 数 之 后 也 要 进 
行 一 次 例 行 的 检验 。 但 尽管 这 样 还 是 可 能 会 有 漏网 之 鱼 ， 所 以 遇 有 块 组 描述 结构 中 的 信息 与 索引 节 
尽 位 图 个 ~- 致 时 便 说 明 块 组 已 经 损坏 ， 该 文件 系统 已 经 不 - 致 了 。 如 果 发 生 了 这 样 的 情况 (在 位 图 
中 找 不 到 空闲 的 索引 节点 )， 那 就 只 好 身 找 其 他 块 组 ， 所 以 《400 行 ) 通过 goto 语句 转 回 标号 repeat 
处 再 来 一 次 。 

Bit, ZE i RRRA, 而 j 表示 所 分 配 的 索引 节点 在 本 块 组 位 图 中 的 序号 ， 根 据 这 二 者 可 以 
算出 该 节点 在 整个 设备 (文件 子 系统 ) 中 的 索引 节点 号 。 我 们 继续 往 下 看 : 


[sys_open( ) > filp..open( ) > open_namei( ) > vfs create( ) > ext2_create( ) > ext2_new_inode( )] 


402 j += i * EXT2 INODES PER GROUP(sb) + i: 

403 if (j < EXT2_FIRST_INO(sb) || j > le32_to_cpu(es->s_inodes count)) 1 
404 ext2_error (sb, “ext2 new inode”, 

405 “reserved inode or inode > inodes count -“ 

406 "block group = %d, inode=%d”, i, j); 

407 err = -EIO; 

408 goto fail; 

409 } 

410 gdp-^bg free inodes count = 

411 cpu to lel6(lel6 to cpu(gdp-^»bg free inodes count) - 1); 
412 if (S_LSDIR (mode) ) 

413 gdp->bg used dirs count = 

414 cpu to lel6(lel6 to cpu(gdp-^bg used dirs count) + 1): 
415 mark buffer dirty (bh2) ; 

416 es-^s free inodes count = 

417 cpu to 1e32(1e32 to cpu(es-^s free inodes count) - 1); 
418 mark buffer dirty(sb->u. ext2 sb.s sbh); 

419 sb-»s dirt = 上 

420 inode-^?i mode = mode; 

42] inode->i_uid = current-»fsuid: 

422 if (test opt (sb, GRP1D)) 

423 inode->j gid = dir->i gid; 

424 else if (dir->i_mode & S ISGID) { 

425 inode-^i gid = dir-^i gid; 

426 if (S_ISDIR (mode) ) 

427 mode |= S ISCID; 

428 } else 

429 inode->i_gid = current-^fsgid; 

430 

431 inode->1_ino = j; 
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432 jinode->i blksize = PAGE SIZE; /* This is the optimal IO size 
(for stat), not the fs block size */ 


433 inode->i blocks = 0; 

434 inode-^i mtime = inode->i_atime = inode->i ctime = CURRENT TIME; 
435 inode-Pu.ext2 i.i new inode = 1; 

436 inode->u. ext2 i.i flags = dir->u. ext2 i.i flags; 
437 if (S_LSLNK (mode) ) 

438 inode-^u.ext2 i.i flags &= "(EXT2 IMMUTABLE FL | EXT2 APPEND FL); 
439 inode->u. ext2_i. i_faddr = 0; 

440 inode->u. ext2 i. i frag no = 0; 

441 inode->u. ext2_i.i frag size = 0; 

442 inode->u. ext2 i.i file acl = 0; 

443 inode->u. ext2 i.i dir acl = 0; 

444 inode-»u.ext2 i.i dtime = 0; 

445 inode->u. ext2 i.i block group = i; 

446 if (inode—u.ext2 i.i flags & EXT2 SYNC FL) 

447 inode->i flags |= S, SYNC; 

448 insert inode hash(inode); 

449 inode-^i generation = event-^*; 

450 mark inode dirty (inode) ; 

451 

452 unlock super (sb); 

453 if(DQUOT ALLOC INODE(sb, inode)) { 

454 sb- >dq_op->drop (inode) ; 

455 inode->i nlink = Q; 

456 iput (inode); 

457 return ERR PTR(-EDQUOT) ; 

458 } 

459 ext2 debug (“allocating inode %lu\n”, inode ^i ino); 
460 return inode; 

461 

462 fail: 

463 unlock super (sb); 

464 iput (inode); 

465 return ERR PTR(err): 

466  ] 


分 配 了 空闲 索引 节点 后 ， 还 要 对 其 节点 号 作 一 次 检查 。Ext2 CHARS BER ER VLL 
节点 不 用 ,此 外 超级 块 中 的 s_inodes_count 也 可 能 与 各 块 组 中 索引 节点 的 总 和 个 一 致 (通常 发 生 在 用 
户 使 用 工具 对 超级 块 进行 了 某 种 修补 以 后 )。 

王 面 就 是 对 块 组 描述 结构 和 超级 块 中 数据 的 调整 ， 以 及 对 新 建立 的 inode 结构 的 初始 化 了 。 谍 者 
应 注意 对 新 创建 文件 (或 日 录 ) 的 用 户 号 uid 和 组 号 gid 的 设置 。 首 先 ， 新 创 文件 的 uid 并 不 十 当 前 
进程 的 vid， 而 是 它 的 fsuid。 也 就 是 说 ， 如 果 当 前 进程 是 因为 执行 一 个 suid 可 执行 程序 而 成 为 越级 
用 户 的 ， 那 么 它 所 创建 的 文件 必 于 超级 用 户 (uid 为 0)。 或 者 ， 如 果 当 前 进程 通过 设置 进程 的 用 户 号 
转 到 了 另 一 个 用 户 的 名 下 , 那么 它 所 创建 的 文件 也 就 属于 当前 进程 此 时 实际 使 用 的 用 户 写 , BY fsuid。 
组 号 的 情况 也 与 此 类 似 。 但 是 安装 文件 系统 时 可 以 设置 一 个 GRPID 标志 位 ,使 得 在 该 文件 系统 中 新 
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创 文件 时 使 用 其 所 在 目录 的 gid， 而 不 管 当前 进程 的 fsgid 是 什么 。 或 者 ， 如 果 虽 然 GRPID 标志 位 为 
0， 但 是 ， 所 在 目录 的 模式 中 的 S_ISGID 标志 为 1， 也 就 继承 其 所 在 日 录 的 gid。 

然后 将 新 的 inode 结构 链 入 到 inode_hashtable 中 的 某 个 杂凑 队列 里 ，insert_ionde_hash( ) 的 代码 
在 fs/inode.c FP: 


Isys open( ) > filp open( ) > open namei( ) > vfs create( ) > ext2, create( ) > ext2, new. inode( ) > 
insert inode. hashí( )] 


196 Fk 

191 * insert inode hash - hash an inode 

798 * @inode: unhashed inode 

799 * 

800 * Add an inode to the inode hash for this superblock. If the inode 
801 * has no superblock it is added to a separate anonymous chain. 
802 */ 

803 

804 void insert inode hash(struct inode *inode) 

805 { 

806 struct list head *head = &anon hash chain; 

807 if (inode— i sb) 

808 head = inode hashtable + hash(inode->i_sb, inode-^i ino); 
809 spin lock(&inode lock); 

810 list add(&inode-»i hash, head); 

811 spin unlock(&inode lock): 

812. ] 


索引 ess Hel] 设备 上 保持 惟一 性 ， 所 以 在 杂凑 计算 时 将 所 在 设备 的 super. block 结构 的 地 
址 也 一 起 计算 进去 ， 以 保证 其 全 系统 范围 的 惟一 性 。 

由 于 我 们 并 不 关心 设备 上 存储 空间 的 了 配额 问题 ，ext2_new_inode( ) 的 操作 就 完成 了 。 回 到 
ext2_create( ) 的 代码 中 ， 接 者 是 设置 新 创 inode 结构 中 的 inode operations 结构 指针 和 file operations 
结构 指针 ， 还 有 用 于 文件 映射 (至 虚 存 内 间 中 ) 的 address space operations 结构 指针 ， 使 它们 一 一 
指向 由 Ext2 文件 系统 提供 的 相应 数据 结构 。 这 样 ， 对 这 个 新 建文 件 ，VFS 层 与 Ext2 层 之 间 的 界面 
就 设置 好 了 。 这 些 指针 决定 了 对 该 文件 所 作 的 一 些 文件 操作 要 通过 由 Ext2 文件 系统 所 提供 的 函数 米 
完成 。 

至 此 ， 新 文件 的 索引 节点 已 经 分 配 ， 内 核 中 的 inode 数据 结构 也 已经 建立 并 设置 好 。 山 于 新 的 
inode 已 经 通过 mark_inode_dirty( ) 设 置 成 “ 脏 ”, 并 从 杂凑 队列 转移 到 了 super. block 结构 中 的 s dirty 
队列 里 ， 这 样 内 核 就 会 (在 适当 的 时 机 ) 把 这 个 inode 结构 的 内 容 写 回 设备 上 的 索引 节点 ， 因 此 可 以 
认为 文件 本 身 的 创建 已 经 完成 了 。 但 是 ， 尽 管 如 此 ， 这 个 文件 还 只 是 一 个 “孤岛 ” 通 向 这 个 文件 的 
路 笃 还 不 存在 。 所 以 ， 回 钊 ext2_create( ) 中 ， 下 一 步 是 要 在 该 文件 所 在 的 日 录 中 增加 一 个 目录 项 ， 
使 新 文件 的 文件 名 与 其 索引 节点 号 持 上 钩 并 出 现在 日 录 中 ， 从 而 建立 起 通 向 这 个 文件 的 路 径 ， 这 是 
由 ext2_add_entry( ) 完 成 的 ， 其 代码 在 fs/ext2/namei.c 中 。 如 前 所 述 ， 目 录 实 际 上 也 是 文件 ， 所 以 在 
目录 中 增加 -一 个 目录 项 的 操作 就 与 普通 文件 的 读 / 写 很 相似 ， 我 们 建议 读者 在 学 习 了 下 一 节 “ 文 件 
的 读 与 与 ”以 后 问 过 头 来 自己 读 一 下 这 段 代 码 。 

最 后 ， 还 要 让 新 建文 件 的 dentry 结构 (在 open_namei( ) 中 由 lookup_hash( )8/28) 5 inode 结构 之 
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EEHEEHE, EH d instantiate( ) 完 成 的 ， 其 代码 已 在 前 面 读 过 了 。 

EC ext2_create( ) 执 行 完 毕 以 后 ，vfs_create( ) 的 任务 也 就 完成 了 。 

看 完了 文件 的 打开 ， 再 来 看 看 文件 的 关闭 。 系 统 调用 close( ) 是 由 内 核 中 的 sys_close( ) 实 现 的 ， 
有 关 的 代码 基本 上 都 在 fs/open.c H: 


810 /* 

811 * Careful here! We test whether the file pointer is NULL before 
812 * releasing the fd. This ensures that one clone task can't release 
813 * an fd while another clone is opening it. 

814 */ 

815 asmlinkage long sys_close (unsigned int fd) 

816 { 

817 struct file * filp; 

818 struct files struct *files = current-?files; 
819 

820 write lock (&files—>file lock); 

821 if (fd >= files—>max_fds) 

822 goto out_unlock; 

823 filp = files->fd[fd]; 

824 if ('filp) 

825 goto out unlock; 

826 files-^fd[fd] = NULL; 

827 FD CLR(fd, files-^close on exec); 

828 | put unused fd(files, fd); 

829 write unlock (&files->file lock); 

830 return filp close(filp, files); 

831 

832 out unlock: 

833 write unlock(&files-^file lock); 

834 return —-EBADF; 

835 |] 


代码 中 FD CLR 以 及 有 关 的 宏 操 作 定义 如 下 ， 分 别 在 time.h 和 asm-i386/posix_types.h F: 
109 Hdefine FD CLR(fd,fdsetp) __ FD CLR(fd, fdsetp) 

55 #define FD CLR(fd, fdsetp) ^ 

56 | asm volatile  ("btr] 91,90^: \ 


57 “=m” (*( kernel fd set *) (fdsetp)):"r" ((int) (fd))) 


它 将 位 图 files--close, on. exec 中 序 写 为 fd KAS — r8 X 0. 
水 数 __put_unused_fd( ) 的 代码 在 fs/open.c H: 


[sys_close( ) > ... put unused, fd( )] 
58 static inline void . put unused fd(struct files struct *files, 
unsigned int fd) 
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59 f 

60 FD CLR(fd, files->open fds); 
61 if (fd < files—>next_fd) 

62 files->next fd = fd; 

63 } 


代码 的 作者 在 sys_close( ) 的 注释 中 讲述 了 企 释 放 打 开 文 件 号 之 前 先 检 查 与 其 对 应 的 file 结构 指 
针 filp 62g O 的 重要 性 。 方面 这 是 因为 在 打开 文件 时 分 配 打 开 文 件 号 在 前 ， 而 “安装 ”file 结构 
指针 在 最 后 ( 见 sys open ORARIS). D Ahi 个 进程 在 fork 子 进程 时 可 以 选择 让 子 进程 共享 而 
Ne “Sik” CRAY, £15 HH files srtuct 结构 。 这 样 ， 如 果 两 个 进程 共享 同 … 个 file struct 结构 ， 
其 中 一 个 进程 正在 打开 文件 ， 已 丝 分配 了 打开 文件 号 ， 但 是 尚未 安装 file 结构 指针 ， 而 另 一 个 进程 
却 在 中 途 挤 进 米 关闭 这 个 “已 打开 文件 ”和 而 释放 了 这 个 打开 文件 号 ， 那 当然 会 造成 问题 。 

然后 ， 就 像 sys_open( ) 的 主体 起 filp open( ) ‘FF, sys_close( ) 的 主体 也 是 flp_close( )， 其 代码 
也 在 fs/open.ck 中 : 





[sys close( ) > filp close( )] 


786 /* 

787 * “id” is the POSIX thread ID. We use the 
788 * files pointer for this.. 

789 */ 

790 int filp_close (struct file *filp, fl owner t id) 
19301 | 

192 int retval; 

793 

794 if (!file count(filp)) { 

795 printk(^VFS; Close: file count is OWn^); 
796 return 0; 

797 } 

798 retval] = 0; 

199 if (filp>f op && filpf op->flush) { 
800 lock kernel( ); 

801 retval = filp-^f op-^flush(filp); 
802 unlock kernel ( ); 

803 } 

804 fentl dirnotify(0, filp, 0); 

805 locks remove posix(filp, id); 

806 fput (filp) ; 

807 return retval; 

808 } 


FEES RSCQHEE ALC EIN “ha” FRAR, BD CAEP OA eH AA Sie 
上 ， 并 因 出 在 其 file operations 数据 结构 中 提供 相应 的 函数 指针 flush, Ait, Ext2 并 不 作 这 样 的 安 
排 ,其 消 数 指针 flush 为 空 指针 ， 这 一 来 关闭 文件 的 操作 就 变 得 简单 了 。 此 外 ， 当 前 进程 可 能 对 欲 关 
闭 的 文件 加 了 POSIX 锁 ， 但 是 筷 了 在 关 财 前 把 锁 解 除 ， 所 以 调用 locks remove posix( ) 试 下， 以 
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最 后 ， 就 是 fput( ) 了 。 它 递减 file 结构 中 的 共享 计数 ， 如 果 递 减 后 达到 了 0 就 释放 该 file 结构 ， 
有 关 的 代码 在 include/linux/fs.h 和 fs/file table.c 中 。 读 者 应 注意 从 sys_close( ) 开 始 我 们 并 未 见 到 与 
fput( ) 配 对 的 fget( )。 其 实 ， 这 个 计数 是 当初 在 打开 文件 时 在 get_empty_filp( ) 中 设置 成 1 的 ， 所 以 这 
里 的 递减 与 此 遥相呼应 。 至 于 这 一 次 fput( ) 是 否 能 使 该 计数 达到 0， 则 取决 十 此 时 是 否 还 有 别 的 活动 
或 进程 在 共享 这 个 数据 结构 。 例 如 ， 要 是 当初 打开 这 个 义 件 的 进程 ，clone( ) 了 一 个 线程 ， 那 就 会 在 
clone( ) 的 时 候 递 增 这 个 计数 ， 如 果 所 创建 的 线程 尚未 关闭 这 个 文件 ， 则 因 共 享 计 数 大 十 1 而 不 会 递 
RE 0. 


[sys close( ) > filp close( ) > fput( )] 


99 void fput(struct file * file) 


100 { 

101 struct dentry * dentry = file->f dentry; 
102 struct vfsmount * mnt = file 5f vfsmnt; 
103 struct inode * inode = dentry-5d inode; 
104 

105 if (atomic dec and test(&file-^f count)) 1 
106 locks remove flock(file); 

107 if (file f op && file-^f op-— release) 
108 file-^f op release(inode, file); 
109 fops put (file-^f op); 

110 file->f_dentry = NULL; 

111 file->f_vfsmnt = NULL; 

112 if (file->f mode & FMODE WRITE) 

113 put write access(inode); 

114 dput (dentry) ; 

115 if (mnt) 

116 mntput (mnt) ; 

117 file list. lock( ): 

118 list del(&file—^f list); 

119 list add(&file-^f list, &free list): 
120 files stat.nr free filestt+; 

121 file list unlock( ); 

122 } 

123 } 


在 fput( ) 中 又 来 处 理 当 前 进程 可 能 已 经 对 日 标 文 件 加 上 而 林 及 解除 的 锁 ， 但 古 这 一 次 关心 的 是 
FL FLOCK 锁 。 如 前 所 述 ， 这 种 锁 一 定 是 “协调 馈 ” 而 刚才 处 理 的 是 POSIX 锁 ， 它 可 以 是 协调 锁 
也 可 以 是 强制 锁 。 
代 但 中 的 fops_put( ) 是 个 宏 操作 : 
865 #define fops put(fops) ^ 
866 dof  \ 
867 if ((fops) && (fops)->owner) \ 
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868 __MOD_DEC_USE_COUNT ((fops) -^owner) ; ^ 
869 } while(0) 


显然 ， 这 里 关 心 的 是 动态 安装 模块 的 使 用 计数 。 

此 外 ， 每 种 文件 系统 可 以 对 file 结构 的 释放 规定 一 些 附 加 操作 ， 通 过 其 file operations 结构 中 的 
函数 指针 release 提供 相应 的 操作 ， 如果 这 个 指针 半 0 就 表示 需 归 调用 这 个 函数 。 就 Ext2 文件 系统 而 
言 ， 这 个 函数 是 ext2_release_file( )， 其 代码 在 fs/ext2/file.c +}: 


[sys_close( ) > filp_close( ) > fput( ) > ext2 release file( )] 


70 /* 

71 * Called when an inode is released. Note that this is different 

72 * from ext2 file open: open gets called at every open, but release 
73 * gets called only when /all/ the files are closed. 

74 */ 


75 static int ext2_release file (struct inode * inode, struct file * filp) 
76 {f 


77 if (filp->f_mode & FMODE_WRITE) 

78 ext2 discard prealloc (inode); 
19 return 0; 

80  ] 


操作 很 简单 ， 只 是 把 预 分 配 的 数据 块 ( 见 下 … 节 ) 释放 控 而 已 。 

把 file 结构 释放 以 后 ， 日 标 文件 的 dentry 结构 以 及 所 在 设备 的 vfsmount 结构 束 少 了 一 个 用 户 ， 
所 以 还 蓝调 用 dput( ) 和 mntput( ) 递 减 它们 的 共享 计数 。 同 样 ， 如 果 递 减 后 达到 了 0 就 要 将 数据 结构 
释放 。 还 有 ， 旭 果 当 初 打开 这 个 文件 时 的 模式 为 写 访问 ， 则 还 要 通过 put write access( ) 递 减 其 inode 
结构 中 的 i_writecount 计数 。 如 前 所 述 ， 这 个 计数 用 十 按 普 通 的 文件 操作 与 按 内 存 映 射 访问 文件 这 两 
种 途径 问 的 互 斥 。 

Boa, 所谓“ 释放 ”file 结构 ， 就 是 把 它 从 inode_hashtable 中 的 杂凑 队列 里 脱 链 ， 退 还 全 free. list 
中 。 


56 文件 的 写 与 读 


只 有 在 “打开” 了 文件 以 后 ， 或 者 说 建立 起 进程 与 文件 之 间 的 “连接 ”之 后 ， 才 能 对 义 件 进行 读 
/ 写 。 文件 的 读 / 写 主 要 是 通过 系统 调用 read( ) 和 write( ) 完 成 的 ， 对 于 访 / 写 文件 的 进程 ， 目 标 义 件 
B UIDIEXITSE TUR: 

为 了 提高 效率 ， 稍 为 复杂 - 些 的 操作 系统 对 文件 的 读 / 写 都 是 带 缓冲 的 ，Linux 当然 也 不 例外 。 像 
VFS E, Linux 文件 系统 的 缓冲 机 制 也 是 它 的 一 大 特色 。 所 谓 缓 冲 ， 是 指 系统 为 最 近 刚 读 / 写 过 的 文 
件 内 容 在 内 核 中 保留 一 份 副 本 ， 以 便当 再 次 需要 已 经 缓冲 存储 在 副本 中 的 内 容 时 研 不 必 再 临时 从 设备 
LRA, ms es A WAT ES SAE, RS ASEAN ARIA GARE. ASU AR 
KT, BPS RAS TERPS, HEHRIBMERISCB SEXT. 

然而 ， 怎 样 实现 缓冲 ， 在 哪个 层次 上 实现 缓冲， 却 是 一 个 值得 和 仔细 加 以 考虑 的 问题 。 辐 顾 一 下 
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本 章 开 头 处 的 文件 系统 层次 网 《网 5.3 和 图 5.1)， 在 系统 中 处 于 最 高 层 的 是 进程 ， 这 : 层 可 以 称 为 “应 
用 层 ”， 是 在 用 户 空 间 运 行 的 ， 在 这 里 代表 着 目标 文件 的 是 “打开 文件 号 ” 在 这 一 层 中 提供 缓冲 似乎 
最 贴近 文件 内 容 的 使 用 者 ， 但 丰 那 样 就 需要 用 户 进程 的 介入 ， 从 而 不 能 做 到 对 使 用 者 “透明 ”， 并 且 缓 
冲 的 内 容 不 能 为 其 他 进程 所 共享 ， 所 以 显然 是 不 妥当 的 。 在 应 用 层 以 下 是 “文件 层 ”， 又 可 细 分 为 VES 
层 和 具体 的 文件 系统 层 ， 再 下 面 就 是 “设备 层 ” 了 。 这 些 层次 都 在 内 核 中 ， 所 以 在 这 些 层 次 上 实现 缓 
冲 都 可 以 达到 对 用 户 透 明 的 目标 。 设 备 层 是 最 贴近 设备 ， 即 文件 内 容 的 “源头 ”的 地 方 ， 在 这 里 实现 
缓冲 显然 是 可 行 的 。 事 实 上 , 早期 Unix 内 核 中 的 文件 缓冲 就 是 以 数据 块 缓冲 的 形式 在 这 一 层 土 实现 的 。 
但 是 ， 设 备 层 上 的 缓冲 离 使 用 者 的 距离 太 达 了 一 点 ， 特 别 是 当 文件 层 又 分 为 VFS 和 具体 文件 系统 两 个 
子 层 时 ， 每 次 读 / 写 都 要 穿越 这 么 多 界面 深入 到 设备 层 就 难免 使 人 有 一 种 “长 途 战 涉 ” 之 感 。 很 间 然 
地 ， 设 计 大 员 把 眼光 投向 了 文件 层 。 

在 文件 层 中 有 三 种 主 时 的 数据 结构 ， 就 是 file 结构 、dentry 结构 以 及 inode 结构 。 

先 看 file 结构 。 前 面 讲 过 ， 一 个 file 结构 代表 着 日 标 文件 的 一 个 上 下 文 ， 不 但 不 同 的 进程 可 以 在 辐 
一 个 文件 上 建立 不 同 的 上 下 文 , 就 是 同一 个 进程 也 可 以 通过 打开 同一 个 文件 多 次 而 建立 起 多 个 上 下 文 。 
如 果 在 file 结构 中 设 管 个 缓冲 区 队列 ， 那 么 缓冲 区 中 的 内 容 嚼 然 贴 近 这 个 特定 土 下 文 的 使 用 者 ， 直 
不 便于 为 多 个 进程 共享 ， 甚 至 不 便于 同 “个 进程 打开 的 不 同上 下 文 “ 共 享 ”。 这 显然 足 不 合适 的 ， 需 要 
把 这 些 缓冲 区 像 数 学 上 的 “提取 公 因 子 ” 屠 样 放 到 一 -个 公共 的 地 方 。 

那么 dentry 结构 怎么 样 ? 这 个 数据 结构 并 不 属于 某 一 个 上 上 文 ， 也 不 属于 某 一 个 进程 ， 可 以 为 所 
有 的 进程 和 上 下 文 共享 。 可 是 ，dentry 结构 与 日 标 文件 并 不 是 一 对 一 的 关系 ， 通 过 文件 连接 ， 我 们 可 
以 为 已 经 存在 的 文件 建立 “别名 ” - :个 dentry 结构 只 是 惟一 地 代表 着 文件 系统 中 的 一 个 节点 ， 也 就 是 

-个 路 径 名 ， 但 是 多 个 节点 可 以 同时 代表 着 同 个 文件 ， 所 以 ， 还 应 该 再 来 “次 “提取 公 因 子 ”。 

显然 ， 在 inode 数据 结构 中 设置 一 个 缓冲 区 队列 是 最 合适 不 过 的 了 ， 首 先 ，inode 结构 与 文件 是 一 
对 一 的 关系 ， 即 使 一 个 文件 有 多 个 路 径 名 ， 最 后 也 归结 到 同一 个 inode 结构 上 。 册 说 ， 一 个 文件 中 的 内 
容 是 不 能 由 其 他 文件 共享 的 ， 在 同一 时 间 里 ， 设 备 上 的 每 一 个 记录 块 都 只 能 属于 至 多 一 个 文件 (或 者 
就 是 空闲 )， 将 载 有 同一 个 文件 内 容 的 缓冲 区 都 放 在 其 所 属 文件 的 inode 结构 中 是 很 日 然 的 事 。 因 此 ， 
在 inode 数据 结构 中 设置 了 一 个 指针 imapping， 它 指 问 一 个 address space 数据 结构 (通常 这 个 数据 结 
构 就 是 inode 结构 中 的 idata)， 缓 冲 区 队列 就 在 这 个 数据 结构 中 。 

不 过 ， 挂 在 缓冲 区 队列 中 的 并 不 是 记录 块 调 是 内 存 页 面 。 也 就 是 说 ， 文 件 的 内 容 并 不 是 以 记录 块 
为 单位 ， 而 是 以 页 面 为 单位 进行 缓冲 的 。 如 果 记 录 鼎 的 大 小 为 1K 学 节 ， 那么 一 个 页 面 就 相当 十 4 个 记 
录 块 。 为 什么 要 这 样 做 昵 ? 这 是 为 了 将 文件 内 容 的 缓冲 与 文件 的 内 存 映射 结合 在 一 起 。 我 们 在 第 2 章 


后 ， 就 可 以 像 访 问 内 存 一 样 地 访问 这 个 文件 。 如 果 将 文件 的 内 容 以 页 面 为 单位 缓冲 ， 放 在 附属 于 该 文 
件 的 inode RIAA BASU, 那么 只 要 相应 地 设置 进程 的 内 存 映 射 表 ， 就 可 以 很 白 然 地 将 这 些 缓冲 页 
而 映射 到 进程 的 用 户 空 间 中 。 这 样 ， 在 按 常 规 的 文件 操作 访问 一 个 文件 时 ， 可 以 通过 read( ) 和 write( ) 
系统 调用 目标 文件 的 inode 结构 访问 这 些 缓冲 页 面 ; 而 道 过 内 存 映射 机 制 访问 这 个 文件 时 ， 就 可 以 经 出 
页 面 映射 表 直 接 读 写 这 些 缓冲 着 的 页 面 。 当 目标 页 血 不 在 内 存 中 时 ， 和 常规 的 文件 操作 通过 系统 调 几 
read(). write ) 的 底层 将 其 从 设备 上 读 入 ,而 通过 内 存 映 射 机 制 访问 这 个 文件 时 则 由 “ 缺 奥 异常 ”的 服 
务 程 序 将 目标 页 面 从 设备 上 读 入 。 也 就 是 说 ， 同 一 个 缓冲 页 面 可 以 满足 两 方面 的 要 求 ， 文 件 系 统 的 组 
六 机 制 和 文件 的 内 存 上 映射 机 制 巧妙 地 结合 在 一 起 了 。 明 各 了 这 个 背景 ， 对 于 上 述 的 指针 为 什么 叫 
i_mapping， 它 所 指 向 的 数据 结构 为 什么 叫 address_space， 就 不 会 感到 人 背 翌 了 。 

可 是 ， 尽 管 以 页 面 为 单位 的 缓冲 对 于 文件 层 确 实 是 很 好 的 选择 ， 对 于 设备 层 则 不 那么 合适 了 。 对 
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设备 层 而 吉 ， 最 自然 的 当然 还 是 以 记录 块 为 单位 的 缓 六 ， 因 为 设备 的 读 / 写 都 是 以 记录 块 为 单位 的 。 

不 过 ， 从 磁盘 上 读 / 当时 主要 的 时 间 者 化 在 准备 下 作 〈 如 磁头 组 的 定位 ) 上 ， 一 旦 准备 好 了 以 后 读 一 
个 记录 块 与 接连 读 儿 个 记录 块 相 莽 不 大 ， 侧 日 每 次 内 读 写 一 个 记录 上 块 倒 反 而 是 不 经 济 的 。 所 以 全 次 读 
写 若干 连续 的 记录 块 、 以 页 面 为 单位 米 绥 六 也 并 不 成 为 问题 。 另 方面， 如 果 以 页 面 为 单位 缓冲 ， 而 
一 个 页 面相 当 于 若 十 个 记录 块 ,那么 无 论 是 对 于 缓冲 页 面 还 是 对 于 记录 上 快 缓 冲 区 , 其 以 制 和 附加 信息 ( 如 
链接 指针 等 ) 显然 应 该 游离 于 该 页 击 之 外 ， 这 些 信息 不 应 该 映射 到 进程 的 用 户 空间 。 这 个 问题 也 不 难 
解决 .读者 不 妨 辐 顾 一 上, 第 2 章 中 讲 过 的 page 数据 结构 就 是 这 样 。 在 page 数据 结构 中 有 个 指针 virtual 
HHL TARE HURL, 但 是 page 结构 本 身 则 不 在 这 个 页 面 中 。 同样 地 , 在 “缓冲 区 头 部 ” 即 buffer_head 
数据 结构 中 有 一 个 指针 b. data 指向 缓冲 区 ， 而 buffer head 结构 本 身 则 不 在 缓冲 区 中 。 所 以 ， 住 设备 层 
中 只 要 保持 一 些 buffer_head £5 Eg. i418 b. data 指针 分 别 指向 缓冲 页 面 中 的 相应 位 置 上 就 可 以 d'a 

以 -个 级 冲 页 面 为 例 ， 在 文件 层 它 通过 -个 page 数据 结构 挂 入 所 属 inode 结构 的 缓冲 页 面 队列 ， 并 有 日 
同时 又 可 以 通过 各 个 进程 的 页 而 映射 表 喘 射 到 这 些 进 程 的 内 存 室 间 ， 而 在 设备 层 则 又 通过 老 王 GH 
EUT, AA KOM AD A 4KB, MWÆIKKI 1KB) buffer head 结构 挂 入 其 所 在 设备 的 缓冲 区 
队列 。 这 样 ， 以 页 面 为 单位 为 文件 内 容 建立 缓冲 真是 “一 箭 三 雕 ” 下 页 的 示意 图 〔〈 图 5.60 也 许 有 助 
于 读者 对 缓冲 机 制 的 理解 。 

在 这 样 “个 结构 框架 中 ， 晶 所 欲 访问 的 内 容 已 经 在 缓冲 页 面 队列 中 ， 读 文件 的 效率 就 很 高 了 ， 
只要 找到 文件 的 inode 结构 file 结构 中 有 指针 指向 dentry 结构 ， 而 dentry 结构 中 有 指针 指向 inode 结 
构 ) 就 找到 了 缓冲 页 面 队 列 ， 从 队列 中 找到 相应 的 页 而 就 可 以 读 出 了 。 缓 冲 页 而 的 page 结构 除 链 入 附 
属于 inode 结构 的 缓冲 页 面 队列 外 ， 同 时 也 链 入 到 个 杂凑 表 page hash table 中 的 杂凑 队列 中 《图 中 
没有 夯 出 )， 所 以 导 找 日 标 页 面 的 操作 也 是 效率 很 高 的 ， 并 不 需要 在 整个 缓冲 页 面 队列 中 线性 搜索 。 

那么 ， 写 操作 又 如 何 呢 ? 如 前 所 述 ， 一 出 目标 记录 块 己 经 存在 于 缓冲 页 面 中 ， 写 操作 只 是 把 内 容 
号 到 该 缓冲 页 面 中 ， 所 以 从 发 动 写 操作 的 进程 的 角度 来 看 速度 也 是 很 快 的 。 全 于 改变 了 内 容 的 缓冲 页 
面 ， 则 由 系统 负责 在 CPU 较为 空闲 时 写 入 设备 。 为 了 这 个 日 的 ， 内 核 中 设置 了 -个 内 核 线程 kffushd。 
平时 这 个 线程 总 是 在 睡眠 ， 有 需要 时 【〈 例 如 写 操 作 以 后 ) 就 将 其 唤醒 ， 然 后 当 CPU 较为 空 闻 时 就 会 训 
度 其 运行 ， 将 已 经 改变 了 内 容 的 缓冲 页 面 写 吕 设备 上 。 这 样 ， 局 动 妇 操作 的 进程 和 kfushd 就 好 像 是 一 
条 流水 作业 线 上 的 上 下 两 个 下 位 上 的 操作 工 ， 而 改变 缓冲 页 面 的 内 容 《 写 操作 ) 与 将 改变 了 内 容 的 组 
"mue CRRA “TAR” 则 好 像 是 上 下 两 道上 序 。 除 这 样 的 “分 工会 作 ” 以 外 ， SET TIT T 
东 个 文件 的 进程 还 可 以 直接 通过 系统 调用 sync OS8G HE SUE SAA. Ih, Sebi page 
结构 偿 链 入 到 一 个 LRU 队列 中 ， 要 是 一 个 负面 很 久 没 有 受到 访问 ， 内 存 空间 又 比较 短缺 ， 就 可 以 把 它 
释放 而 田 作 他 用。 

除 通过 缓冲 来 提高 文件 读 / 写 的 效率 外 ， 还 有 个 措施 是 “ 预 读 ”。 就 起 说 ， 如 果 一 个 进程 发 动 了 对 
某 一 个 绥 冲 页 面 的 读 (或 写 ) 操作 ， 并 且 该 页 和 而 尚 不 在 内 存 中 而 需要 从 设备 上 读 入 ， ABZ En] CA FRU, 
通常 情况 下 它 接 下 太 吕 能 会 继续 往 下 读 写 ， 因 此 不 妨 预 先 将 后 硬 几 个 页 面 也 -起 读 进来 。 an gg Pr, 
A Piet SAIN “RRS”, EVE PR RIN AERE HR GE. HT fr, 从 设备 多 读 几 个 记录 块 
并 个 相 并 多 少时 间 。 - 般 而 言 ， 对 文件 的 访问 有 陋 种 形式 。 一 种 十 “随机 访问 ” 其 访问 的 位 置 并 无 向 
律 ; 娘 -种 是 “顺序 访问 ”。 预 读 之 所 以 可 能 提高 效率 就 是 因为 人 量 的 文件 操作 都 是 顺序 访问 。 ARX, 
AT DERRE uf E ae ed uk. AL MARGE 4 个 记录 块 ， 只 
可 访问 的 位 置 不 在 其 最 后 一 个 记录 块 中 ， 就 多 少 紫 预 读 几 个 记录 块 ， 只 不 过 预 读 的 量 很 小 而 已 。 
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图 5.6 文件 页 面 缓冲 队列 与 设备 缓冲 区 队列 的 联系 图 


在 早期 的 Unix 系统 中 ， 由 于 当时 的 做 盘 容量 小 ， 速 度 慢 ， 内 存 也 小 ， 一 般 只 预 读 一 个 记录 块 。 而 
现在 的 预 读 ， 则 动 辍 就 是 几 十 K 字 节 ， 甚 至 上 日 KPT. SM, 那 也 要 视 县 体 情 况 而 定 ， 所 以 在 
include/linux/blkdev.h 中 定义 了 一 个 常数 MAX_READAHEAD， 其 定义 为: 


184  /* read-ahead in pages.. */ 
185 #define MAX READAITEAD 3L 
186 #define MIN READAHEAD 3 


这 里 的 数值 31 表示 31 个 页 面 , 即 124K 字 节 。 从 这 里 也 可 以 看 出 ， 许 多 比较 小 的 文件 其 实 者 是 一 
次 就 全 部 预 读 入 内 存 的 。 当 然 ， 这 里 说 的 是 最 大 预 读 量 ， 实 际 运行 时 还 查看 其 他 条 件 ， 未 必 真 的 预 读 
那么 多 。 

由 于 预 读 的 提前 量 已 经 不 青 限于 一 个 记录 块 ， 现 在 file 结构 中 实际 上 要 维持 两 个 上 下 文 了。 一 个 
就 是 由 “当前 位 置 >f_pos 代表 的 真正 的 谈 / 写 上 下 文 , 而 另 一 个 则 是 预 读 的 上 下 文 。 为 此 目的 , 在 fille 
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结构 中 增设 了 f reada, f ramax. f raend. f rawin 等 几 个 字段 。 这 几 个 字段 的 名 称 反 映 了 它们 的 用 途 
(ra 表示 “read ahead”)， 有 具体 的 含义 在 下 面 的 代码 中 就 可 看 到 。 

刃 一 方面 ， 预 读 虽 然 并 不 花费 很 多 时 间 ， 但 毕竟 还 是 需要 一 点 时 间 。 当 一 个 进程 启动 一 次 对 文件 
内 容 的 访问 ， 而 访问 的 及 标 又 恰好 不 在 内 存 中 因而 需要 从 没 备 上 读 入 时 ， 该 进程 只 好 暂时 交 出 运行 权 ， 
进入 睡眠 中 等 待 ， 称 之 为 “受阻 ”(blocked)。 可 是 等 待 多 和 久 昵 ? 一 旦 本 次 访问 的 目标 页 而 进入 了 内 存 ， 
等 得 中 的 进程 就 可 以 而 且 应 该 恢复 运行 了 ， 而 没有 理由 等 待 到 所 有 预 读 的 页 面 也 全 部 进入 内 存 。 从 设 
& bik / 写 一 般 都 是 通过 DMA 进行 的 , 它 周 然 需 要 一 定 的 时 间 , 但 是 并 不 需要 CPU 太 多 的 于 预 , CPU 
完全 可 以 忙 白 己 的 事 。 所 以 ， 从 设备 上 读 入 的 操作 可 以 分 成 两 部 分 。 第 一 部 分 是 必须 要 等 待 的 ， 在 此 
期 间 司 动 本 次 操作 的 进程 只 好 暂时 停 下 来 ， 这 一 部 分 操作 是 “同步 ”的 。 第 二 部 分 则 无 须 等 待 ， 在 此 
期 间 局 动 本 次 操作 的 进程 可 以 继续 运行 ， 所 以 这 一 部 分 操作 是 异步 的 。 至 于 写 操 作 ， 则 如 前 所 述 在 大 
多 数 情况 下 是 留 给 内 核 线程 kflushd 完成 的 ， 那 当然 是 异步 的 。 

读 完 了 上 面 这 一 大 段 的 概述 ， 现 在 可 以 开始 读 代码 了 。 先 看 sys_write( )， 这 是 系统 调用 write ) 在 
内 核 中 的 实现 ， 其 代码 在 fs/read_write.c "P: 


144 asmlinkage ssize t sys write(unsigned int fd, const char * buf, 
size t count) 


145 { 

146 Ssize t ret; 

147 struct file * file; 

148 

149 ret = -EBADF; 

150 file - fget(fd); 

151 if (file) 4 

152 if (file-^f mode & FMODE WRITE) { 

153 struct inode *inode = file->f dentry-5d inode; 

154 ret = locks verify area(FLOCK VERIFY WRITE, inode, file, 

155 file->f pos, count); 

156 if (!ret) { 

157 ssize t (#write) (struct file *, const char *, 
size i, loff t *); 

158 ret = -EINVAL ; 

159 if (file>f op && (write = file->f op->write) != NULL) 

160 ret = write(file, buf, count, &file-»^f pos); 

161 } 

162 } 

163 if (ret > 0) 

164 inode dir notify (file-f_dentry—>d_parent—>d_inode, 

165 DN MODIFY); 

166 fput (file); 

167 } 

168 return ret; 

168  ] 


注意 ， 在 调用 参数 中 并 不 指明 在 文件 中 写 的 位 置 ， 因 为 文件 的 file 结构 代表 着 一 个 上 上下文， 记录 
着 在 文件 中 的 “当前 位 置 ”。 哨 数 fget( ) 根 据 打 开 文件 号 fd 找到 该 已 打开 文件 的 file 结构 ， 这 个 inline 
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函数 的 代码 定义 十 include/linux/file.h 中 : 


[sys write( ) > fget( )] 


125 struct file * fget (unsigned int fd) 


126 { 

127 struct file * file; 

128 struct files struct *files = current—>files; 
129 

130 read lock(&files >file_lock) ; 
131 file = fcheck (fd) ; 

132 if (file) 

133 get file(file); 

134 read unlock(&files-»file lock); 
135 return file; 

136 ) 


xc BUG 或 者 更 确切 地 说 是 它 里 面 的 宏 操 作 get_file( )， 3E E5353 — P EC fput( ) 配对 使 用 的 ， 
因为 这 二 者 一 个 递增 file 结构 中 的 共享 计数 ， 另 一 个 则 递减 这 个 计数 。 哪 一 个 过 程 仕 开始 时 递增 了 某 
个 file 结构 中 的 共享 计数 ,就 负 有 责任 在 结束 时 递减 这 个 计数 ,这 里 get_file( ) 的 定义 企 include/linux/fs.h 
m. 


521 define get file(x) atomic  inc(& (x) f count) 
根据 打开 文件 号 找到 file 结构， 具体 是 由 fcheck( ) 完 成 的 ， 其 代码 在 file.h 中 : 


[sys_write( ) > fget( ) > fcheck( )] 


41 /* 

42 * Check whether the specified fd has an open file. 
43 */ 

44 static inline struct file * fcheck(unsigned int fd) 
45 { 

46 struct file * file = NULL; 

AT struct files struct *files - current—>files; 

48 

49 if (fd < files-^max fds) 

50 file = files-^fd[fd]; 

51 return file; 

52 } 


一 个 进程 要 对 一 个 已 打开 文件 进行 写 操 作 ， 应 满足 几 个 必 此 条 件 。 其 一 是 相应 file 结构 所 f. mode 
字段 中 的 标志 位 FMODE_WRITE 为 1. 这 个 字段 的 内 容 是 在 打开 文件 时 根据 对 系统 调用 open ) 的 参数 
flags 经 过 变换 而 来 的 ， 县 体 见 前 一 节 中 filp_open( ) 和 dentry_open( ) 的 代码 。 耕 标志 位 FMODE_WRITE 
为 0， 则 表示 这 个 文件 是 按 “ 只 读 ” 方 式 打开 的 ， 所 以 该 标志 位 为 1] 是 写 操作 的 一 个 必要 条 件 。 

取得 了 日 标 文 件 的 file 结构 指针 并 确认 文件 是 按 可 写 方式 打开 以 后 ， 还 要 检查 义 件 中 从 当前 位 置 
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f pos FARKI count 个 字 节 是 否 对 写 操作 加 上 了 “ 蝇 制 锁 ” 这 是 通过 locks_verity_area( ) 完 成 的 ， 其 代 
WA fs.h H: 


[sys_write( ) > locks_verify_area( )] 


906 static inline int locks verify area(int rcad write, struct inode *inode, 


907 struct file *filp, loff t offset, 

908 size t couni) 

909 d 

910 if (inode->i flock && MANDATORY LOCK (inode) ) 

911 return locks mandatory area(read write, inode, filp, offset, count): 
912 return 0; 

93  ] 


c ATR ETA SR. DAN At REAREA. msc Y Su. Jt Ln Ge SION, 
就 进步 通过 locks mandatory area( 43 Æ AT EEK A DX dL e TF d a sg Bl UE T o XX ER EC (SEE 
fs/lock.c F, RIME BAG T ICE SET LIRR, 无 非 就 是 扫描 该 文件 的 inode 结构 中 的 i_flock 
HIERE “个 file lock 数据 结构 并 进行 比 对 。 从 这 里 读者 可 以 看 出 为 什么 强制 锁 并 不 总 是 比 协 调 锁 
优越 ， 因 为 对 每 “次 读 / 写 操 作 它 玫 此 扫描 这 个 队列 进行 比 对 ， 这 显然 会 降低 文件 恋 写 的 速度 。 特 别 
是 如 采 每 次 读 / GI KEARD, WEEE RERA [的 开销 所 占 比 例 就 相当 大 了 。 

通过 了 对 蝇 制 锁 的 检 坦 以 后 ， 就 是 写 操作 本 身 了 。 可 想 而 知 ， 不 同 的 文件 系统 有 不 同 的 所 操作 ， 
具体 的 文件 系统 通过 共 file operations 数据 结构 提供 用 填写 操作 的 函数 指针 ， 就 Ext? 文件 系统 而 言 ， 
它 有 两 个 这 样 的 数据 结构 ， “个 是 ext2_file_operations， 另 一 个 是 ext2_dir_operations， 视 操作 的 日 标 为 
文件 或 日 录 而 选择 其 一 ， 在 打开 该 文件 时 “安装 ”在 其 file 结构 中 。 对 于 普通 的 文件 ， 这 个 函数 指针 
指 癌 generic_file_write( )， 其 代码 在 mm/filemap.c 中 ， 我 们 分 段 来 看 。 


[sys_write( ) > generic_file_write( )] 


2426 /* 

2427 * Write to a file through the page cache. 

2428 * 

2429 * We currently put everything into the page cache prior to wriling it. 
2430 * This is not a problem when writing full pages. With partial pages, 

2431 * however, we first have to read the data into the cache, then 

2432 * dirty the page, and finally schedule it for writing. Alternatively, we 
2433 * could write-through just the portion of data that would go into that 
2434 * page, but that would kill performance for applications that write data 
2435 * Jine by line, and it's prone to race conditions. 

2436 * 

2437 * Note that this routine doesn't try to keep track of dirty pages. Each 
2438 * file system has to do this all by itself, unfortunately. 

2439 * okirGmonad. swb. de 

2440 */ 


244] ssize t 
2442 generic file write(struct file *file,const char *bul, size_t count, 
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struct inode 
struct address space *mapping = inode-?i mapping; 


unsigned long 


loff t 


pos, 


Linux 内 核 源 代码 情景 分 析 CED 


loff t *ppos) 
*inode = file->f dentfry->d_ inode; 


limit = current->rlim[RLIMIT FSIZE]. rlim cur; 


struct page *page, *cached_page; 
unsigned long 
status; 


long 
int er 


r, 


written; 


cached_page = NULL; 


down (&inode->i_sem) ; 


pos = *ppos; 

err = -EINVAL; 

if (pos < 0) 
goto out; 


err = file—f error; 


if (err) { 


file—^f error = 0; 
goto out; 


written = 


0; 


if (file->f flags & O APPEND) 
pos = inode-?i size; 


/* 


* Check whether we've reached the file size limit. 


*/ 


err = -EFBIG; 
if (limit != RLIM INFINITY) { 
if (pos >= limit) { 
send_sig(SIGXFSZ, current, 0) ; 
goto out; 


} 


if (count > limit - pos) { 
send sig (SIGXFSZ, current, 0); 


count = 


status = 
if (count) 


0; 


{ 


limit - pos; 
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2490 remove suid(inode); 

2491 inode->i_ctime = inode-^i mtime = CURRENT TIME; 
2492 mark inode dirty. sync (inode) ; 

2493 } 

2494 


Wa ATIA, inode 结构 中 有 个 指针 i_mapping， 指 向 一 个 address space 数据 结构 ， 其 定义 在 
include/linux/fs.h 中 : 


365 struct address space | 


366 struct list head clean pages; /* list of clean pages */ 

367 struct list head dirty pages; /* list of dirty pages */ 

368 struct list head locked pages; /* list of locked pages */ 

369 unsigned long nrpages; /* number of total pages */ 

370 struct address space operations *a ops; /* methods */ 

371 struct inode *host; /* owner: inode, block device */ 

ole struct vm area struct *i_mmap: /* list of private mappings */ 
373 struct vm area struct *i_mmap_shared; /* list of shared mappings */ 
374 spinlock t i shared lock; /* and spinlock protecting it */ 

375 E 


通常 这 个 数据 结构 就 在 inode 结构 中 ， 成 为 inode 结构 的 一 部 分 ， 那 就 是 i_data 《注意 切 英 与 
ext2_inode_info 结构 中 的 数组 i_data[ ] 相 混淆 ?。 结 构 中 的 队列 头 pages 就 是 用 米 维 持 缓 冲 页 面 队 列 的 。 
如 果 将 文件 映射 公 某 些 进 程 的 用 户 空间 ， 则 指针 i mmap Ein] eve TA], BY vm area, struct 545. 
其 中 的 每 一 个 数据 结构 都 代表 着 该 文件 在 其 一 个 进程 中 的 空间 映射 。 还 有 个 指针 a_ops 也 是 很 重要 的 ， 
它 指 同一 个 address space operations 数据 结构 。 这 个 结构 中 的 函数 指针 给 出 了 缓冲 页 面 与 具体 文件 系 
统 的 设备 层 之 间 的 关系 种 操作 ， 例 如 怎样 从 具体 文件 系统 的 疫 备 上 读 或 写 一 个 缓冲 页 面 等 等 。 就 Ext2 
文件 系统 来 说 ， 这 个 数据 结构 为 ext2_aops， 是 在 fs/ext2/inode.c 中 定义 的 : 


669 struct address space operations ext2 aops - | 
670 readpage: ext2 readpage, 

671 writepage: ext2 writepage, 

672 sync page: block sync page, 

673 prepare write: ext2 prepare write, 

674 commit write: generic commit write, 

675 bmap: ext2_bmap 

6766 }; 


我 们 在 系统 调用 “ 章 中 讲 过 ， 在 某 些 条 件 下 系统 调用 会 中 途 流 产 ， 而 流产 以 后 的 对 策 就 是 重新 执 
行 一 遍 系 统 调用 。 文 件 操作 也 是 这 样 。 但 是 ， 在 某 些 特殊 的 情况 下 ， 如 盯 人 在 中 途 流 产 的 同时 或 之 前 已 
发 生 了 其 他 的 出 错 ， 则 此 时 的 重新 执行 所 应 该 做 的 只 是 将 出 错 代码 返回 给 进程 ， 而 不 应 进行 任何 实质 
性 的 操作 ，file EH £ error 字段 就 是 为 此 目的 而 设 的 。 

如 条 在 打开 文件 时 的 参数 中 将 O_APPEND 标志 位 没 为 1， 则 去 示 对 此 文件 的 写 操作 只 能 在 尾 端 添 
加 ， 所 以 要 将 当前 位 置 pos 调整 旬 广 件 的 尾 端 。 此 外 ， 对 每 个 进程 可 以 使 用 的 各 种 资源 ， 包 括 文 件 大 
小 ， 是 可 以 加 上 限制 的 。 进 程 的 task struct 结构 中 有 个 数组 rlim 就 规定 了 对 该 进程 使 用 各 种 资源 的 上 
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限 。 其 中 有 Th, BU FERA RLIMIT FSIZE 处 的 元 素 ， 就 表示 对 该 进程 的 文件 大 小 的 限制 。 如 果 企 图 
写 入 的 位 置 超出 了 这 个 限制 ， 那 头 要 给 这 个 进程 发 :个 信号 SIGXFSZ， 并 且 让 系统 调用 失败 而 返 岂 出 
错 代码 一 EFBIG。 
全 此 ， 只 此 待 写 的 长 度 不 为 0， 那 就 是 “次 有 效 的 与 操 作 了 ， 所 以 要 在 inode 结构 中 打上 时间 印记 
HK iZ inode REIR E” 表示 其 内 容 应 写 回 设备 土 的 相应 索 别 各 点 .这 里 还 有 一 个 图 数 remove_suid( )， 
其 代 人 得 在 同一 文件 mm/filemap.c FP: 


[sys_write( ) > generic file write( ) > remove, suid( )] 


2411 static inline void remove suid(struct inode *inode) 

2412 ( 

2413 unsigned int mode; 

2414 

2415 /* set S IGID if S IXGRP is set, and always set S ISUID */ 
2416 mode = (inode->i_mode & S_IXGRP)*(S_ISGID/S_IXGRP) | S ISUTD; 
2417 

2418 /* was any of the uid bits set? */ 

2419 mode &- inode-^i mode; 

2420 if (mode && !capablc(CAP FSETTD)) | 

2421 inode—^i mode & "mode; 

2422 mark inode dirty (inode) ; 

2423 } 

2424 j 


KRM RB hu Fco A n BS. ün E25 EHC “set uid”, BI S. ISUID 标志 位 的 特权 ， 
而 目标 文件 的 set uid 标志 位 S_ISUID 和 和 S. ISGID 为 1， 则 应 将 inode 结构 中 的 这 些 标 志 位 清 成 0, 也 就 
是 测 夺 该 文件 的 set uid 和 set gid 特性 。 之 所 以 旨 这 样 做 的 原因 是 简单 的 〈 我 们 把 它 留 给 读者 , 见 本 段 后 
的 附加 说 明 )， 但 是 这 里 的 代码 却 不 那么 二 观 。 函 数 ' 和 的 局 部 量 mode Sk Es bab (EAE A TRAIN, FA 


也 是 0， 所 以 mode 成 为 $_ISUID。 而 如 果 i mode 中 的 标志 位 为 1， 那么 相 乘 以 后 的 结果 为 S_ISGID， 
所 以 mode 就 成 为 (S_ISGID 1S_ISUID )。 其 余 的 就 比较 简单 直观 了 。 

此 处 顺便 请 读者 考虑 ， 如 果 当 前 进程 个 具备 设置 $_ ISUID 的 特权 ， 却 其 有 对 “个 已 经 在 在 的 set 
uid 可 执行 文件 的 写 访问 权 ， 则 它 可 以 把 这 个 文件 中 的 内 容 爹 部 改写 。 这 样 ， 就 相当 十 当前 进程 创建 
T HGR set uid 可 执行 文件 。 

回 到 generic file write ) 的 代码 中 继续 往 下 看 。 


[sys write( ) > generic file write( )] 


2495 while (count) { 

2496 unsigned long bytes, index, offset; 

2497 char *kaddr; 

2498 int deactivate - 1; 

2499 

2500 /* 

2501 * Try to find the page in the cache. Tf it isn't there, 
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2502 * allocate a free page. 

2503 */ 

2504 offset = (pos & (PAGE CACHE SIZE -1)); /* Within page */ 
2505 index = pos >> PAGE CACHE SHIFT; 

2506 bytes = PAGE CACHE SIZE - offset; 

2507 if (bytes > count) { 

2508 bytes = count; 

2509 deactivate = 0; 

2510 } 

2511 

2512 /* 

2513 * Bring in the user page that we will copy from first. 
2514 * Otherwise there's a nasty deadlock on copying from the 
2515 * same page as we re writing to, without it being marked 
2916 * up-to-date. 

2517 */ 

2518 { volatile unsigned char dummy; 

2519 __get_user (dummy, buf); 

2520 __get_user (dummy, buf*bytes-1); 

2521 } 

2522 

2523 status = -ENOMEM; /* we'll assign it later anyway */ 
2524 page = | grab cache page(mapping, index, &cached page); 
2525 if (!page) 

2526 break; 

2521 

2528 /* We have exclusive IO access to the page.. */ 

2529 if (!PageLocked(page)) { 

2530 PAGE BUG (page); 

2531 } 

2532 


2533 status = mapping->a ops->prepare write(file, page, offset, offset+bytes) : 
2534 if (status) 


2535 goto unlock; 

2536 kaddr = page address(page); 

2537 status = copy from user(kaddr-offset, buf, bytes); 

2538 flush dcache page (page); 

2539 if (status) 

2540 goto fail write; 

2541 status = mapping->a_ops->commit_write(file, page, 
offset, offset+bytes) : 

2542 if (!status) 

2543 status = bytes; 

2544 

2545 if (status >= 0) { 

2546 written += status; 

2547 count -= status; 

2548 pos += status; 
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2549 buf += status; 

2550 } 

2551 unlock: 

2552 /* Mark it unlocked again and drop the page.. */ 
2553 UnlockPage (page) ; 

2554 if (deactivate) 

2555 deactivate page (pago); 

2556 page cache release(page); 

2557 

2558 if (status < Q) 

2559 break; 

2560 } 

2561 *ppos = pos; 

2062 

2563 if (cached page) 

2564 page cache free(cached pago); 

2565 

2566 /* For now, when the user asks for 0 SYNC, we’ ll actually 
2567 * provide 0 DSYNC. */ 

2568 if ((status >= 0) && (file f flags & O SYNC)) 
2569 status = generic _osync_inode(inode, 1); /* 1 means datasync */ 
2510 

2571 err = written 2 written : status; 

2572 out: 

2573 

2574 up(&inode->i_ sem); 

2575 return err; 

2576 fail_write: 

2577 status = -EFAULT; 

2578 ClearPagelptodate (page) ; 

2579 kunmap (page) ; 

2580 goto unlock; 

2581 } 


写 操作 的 主体 部 分 是 由 一 个 while 循环 实现 的 。 MFA KR S ALI, 在 每 一 次 循环 
中 ， 只 入 一 个 缓冲 页 面 中 写 ， 并 且 将 当前 位 置 pos 相应 地 向 前 推进 ， 而 剩 下 未 写 的 长 度 count 则 逐次 减 
少 。 首 先 此 根据 当前 位 置 pos 计算 出 本 次 循环 中 要 写 的 缓冲 抽 和 面 index、 在 该 页 面 中 的 起 点 offset 以 及 
SAKE bytes 。 计 算 时 将 整个 文件 的 内 容 当 作 :个 连续 的 线性 存储 空间 ， 将 pos AB 
PAGE, CACHE, SHIFT 位 跟 将 pos 被 页 二 大 小 所 整除 是 等 价 的 〈 但 是 更 快 )。 计 算出 了 缓冲 页 面 在 日 标 
文件 中 的 逻辑 序号 index 以 后 ， 就 通过 __grab_cache_page( ) 找 旬 该 缓冲 页 面 ， 如 找 不 到 ， 号 分配、 建立 
一 个 缓冲 页 面 ， 其 代码 人 在 filemap.c F: 


[sys_write( ) > generic_file_write( )>__grab_cache_page( )] 


2378 static inline struct page * 
__grab_cache_page (struct address space *mapping, 
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2379 unsigned long index, struct page **cached page) 
2380 { 

2381 struct page *page, **hash - page hash(mapping, index); 

2382 repeat: 

2383 page = . find lock page(mapping, index, hash): 

2384 if (!page) { 

2385 if (!*cached page) { 

2386 *cached page = page cache ailoc( ): 

2387 if (!*cached_page) 

2388 return NULL; 

2389 } 

2390 page = *cached_page: 

2391 if (add to page cache unique(page, mapping, index, hash)) 
2392 goto repeat; 

2393 *cached page - NULL; 

2394 j 

2395 return page; 

2396 } 


首先 是 通过 杂凑 计算 从 负面 杂凑 表 page hash table 中 找到 所 在 或 应 该 在 的 杂凑 队列 。 与 
page_hash( ) 有 关 的 代码 和 定义 在 include/linux/pagemap.h 中 : 


68 #define page_hash (mapping, index) (page hash table+ page hashfn(mapping, index)) 


46 struct page **page hash table; 


00  /* 

51 * We use a power-of-two hash table to avoid a modulus, 

52 * and get a reasonable hash by knowing roughly how the 

53 * inode pointer and indexes are distributed (ie, we 

54 * roughly know which bits are “significant”) 

55 * 

56 * lor the time being it will work for struct address space too (most of 
51 * them sitting inside the inodes). We might want to change it later. 

58 */ 


09 extern inline unsigned long page hashfn(struct address space * mapping, 
unsigned long index) 
6 { 
61 define i (((unsigned long) mapping)/ \ 
(sizeof (struct inode) &~(sizeof(struct inode) - 1))) 
62 #define s(x) ((x)+((x)>>PAGE_HASH_BITS) ) 
63 return s(itindex) & (PAGE HASH SIZE-1) ， 


64 #undef i 
65 #undef s 
66  ] 


值得 注意 的 是 ， 在 杂凑 计算 中 除 页 面 的 逻辑 序号 index 外 还 使 用 了 指针 mapping， 这 是 因为 页 面 在 
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文件 中 的 罗 辑 序号 在 系统 范围 内 并 不 是 惟一 的。 

这 里 page_hash( ) 返 中 的 是 个 指向 数组 page hash table FE JERKIE ANTREAAN 
是 一 个 page 结构 指针 ， 指 疝 队列 中 的 第 一 个 page 结构 。 

找到 了 日 标 页 面 所 在 ， 或 者 应 该 在 的 杂 凌 队列 后 ， 就 要 搜索 这 个 队列 ， 找 到 该 员 耐 的 page 结构 ， 
这 是 由 __find_jock_page( ) 完 成 的 。 我 们 在 这 里 就 不 看 这 些 低层 函数 的 代码 了 ， 读 者 不 妨 叫 确 “下 第 2 
章 中 的 代码 。 

总 之 ， 如 果 在 队列 中 找到 了 日 标 页 面 就 万 事 大 吉 ， 找 不 钊 就 要 通过 page cache alloc( )2) EG — h^ 
W OEZ) 的 页 面 ， 并 通过 add_to_page_cache_unique( ) 将 其 链 入 相应 的 杂凑 队列 中 。 不 过 ， 在 调 
用 __grab_cache_page( ) 时 也 可 以 通过 调用 参数 带 下 一 个 空闲 页 面 米 ， 此 时 就 把 带 下 来 的 页 面 先 用 挥 ， 
而 不 分 配 新 的 页 面 了 。 

这 样 ， 只 此 系统 中 还 有 可 用 的 页 向 ， 从 __grab_cache_page( ) 返 加 到 generic file write( ) 中 时 一 定 已 
经 有 了 一 个 缓冲 页 面 ， 只 是 这 个 页 面 有 可 能 是 个 新 分 配 的 空白 页 面 。 新 分 配 的 空 良 页 面 与 业已 存 任 的 
缓冲 贞 面 除 在 内 容 上 有 根木 性 的 区 别 外 ， 在 结构 上 也 有 个 重要 的 区 别 。 邦 就 是 前 面 所 讲 的 ， 组 冲 页 条 
一 方面 与 一 个 page 结构 相 联 系 , 另 一 方面 义 要 与 若 十 记录 块 缓 冲 区 的 头 部 ,日 buffer. head 数据 结构 相 
联系 ， 市 新 分 配 的 页 面 则 尚 无 buffer_head 结构 与 之 挂钩 。 所 以 ， 对 于 新 分 也 的 空白 页 面 一 来 要 为 其 配 
备 相应 的 buffer head 数据 结构 ， 二 来 此 将 日 标 页 而 的 内 容 先 从 设备 中 读 入 《〈 因 为 写 操作 林 必 是 整个 页 
面 的 号 入 )。 不 仪 如 此 ， 就 是 业已 存在 的 老 页 而 也 有 个 缓冲 负面 中 的 内 容 是 否 “up_to_date”， 印 是 省 一 
致 的 问题 。 这 里 所 谓 “一致 ”， 是 指 缓 冲 页 面 或 缓冲 区 中 的 内 容 与 设备 上 的 迪 辑 内 容 ( 沾 一 定 是 物理 内 
4 —. VES SS. block commit write ) 的 讨论 。 换 兰 之 ， 人 在 开始 写 入 前 还 鉴 做 一 些 准 备 
工作 ， 而 这 些 准 备 工 作 与 具体 文件 系统 有 关 ， 所 以 由 具体 的 address space operations itf £i Maw ER 
数 指针 prepare. write 提供 具体 的 操作 函数 ， 就 Ext2 文件 系统 而 主 ， 这 个 两 数 为 ext2_prepare_wrete( ), 
其 代码 在 fs/ext2/inode.c "F: 





[sys_write( ) > generic_file_write( ) > ext2 prepare write( )] 


661 static int ext2 prepare write(strucl file *file, struct page *page, 
unsigned from, unsigned to) 

662 { 

663 return block prepare write (page, from, to, ext2 get block); 


} 


这 里 block_prepare_write( ) 起 个 通用 的 函数 , 定义 于 fs/bufferc, H FRAK IRERE HUE S RUE 
的 函数 指针 决定 ， 而 这 里 传 下 去 的 闲 数 为 ext2_get_block( )。 


[sys_write( ) > generic file write( ) > ext2 prepare write( ) > block prepare. write( )] 


1832 int block prepare write (struct page *page, unsigned from, unsigned to, 
1833 get block t *gct block) 

1834  ( 

1835 struct inode *inode - page-?mapping-2host; 

1836 int err = | block prepare write(inode, page, from, to, get block); 
1837 if (err) { 

1838 ClearPageUptodate (page) : 
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1839 kunmap (page) ; 
1840 } 

1841 return err; 
1842} 


TA, XP eR SINE AE__block_prepare_write(), "CHE E [S] — xf fs/buffer.c 中 : 


[sys write( ) > generic file write( ) > ext2, prepare write( ) > block prepare write( ) > 
...block prepare write( )] 


1557 static int . block prepare write (struct inode *inode, struct page *page, 


1558 unsigned from, unsigned to, get block t *get block) 
1559 { 

1560 unsigned block start, block end; 

1561 unsigned long block; 

1562 int err = 0; 

1563 unsigned blocksize, bbits; 

1564 struct buffer head *bh, *head, *wait[2], **wait bh-wait; 
1565 char *kaddr = kmap (page); 

1566 

1567 blocksize = inode->i_sb->s blocksizo; 

1568 if (!page— buffers) 

1569 creato empty buffers(page, inode->i dev, blocksizo); 
1570 head = page->buffers: 

1571 

1572 bbits = inode->i_sb->s_blocksize bits; 

1573 block = page->index << (PAGE CACHE SHIFT - bbits); 

1574 

1575 for (bh = head, block start = 0; bh != head | | !Iblock start; 
1576 blockt*, block_start=block_end, bh ~ bh->b this pago) { 
1577 if (tbh) 

1578 BUG( ) ; 

1579 block end = block start-*blocksize; 

1580 if (block end <= from) 

1581 continue; 

1582 if (block start >= to) 

1583 break; 

1584 if (!buffer_mapped(bh)) ( 

1585 err = get block(inode, block, bh, 1); 

1586 if (err) 

1587. goto out; 

1588' if (buffer new(bh)) | 

1589 unmap underlying metadata (bh) : 

1590 if (Page Uptodate(page)) { 

1591 set bit(BH Uptodate, &bh—b state); 

1592 continue; 

1593 } 

1594 if (block end > to) 
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1595 memset (kaddr+to, 0, block_end-to) ; 
1596 if (block start < from) 

1597 memset (kaddr+block start, 0, from-block start); 
1598 if (block end > to || block start € from) 
1599 flush dcache page (page); 

1600 continue; 

1601 } 

1602 } 

1603 if (Page Uptodate(page)) { 

1604 set bit (BH Uptodate, &bh->b state); 

1605 continue; 

1606 } 

1607 if (!buffer uptodate (bh) && 

1608 (block start < from || block end > to)) { 
1609 ll rw block(READ, 1, &bh); 

1610 *wait bh-*-bh; 

1611 } 

1612 | 

1613 /* 

1614 * If we issued read requests - let them complete. 
1615 */ 

1616 while(wait bh > wait) { 

1617 wait on buffer(*--wait bh); 

1618 err = -EIO; 

1619 if (!buffer_uptodate (kwait bh)) 

1620 goto out; 

1621 ] 

1622 return 0; 

1623 out: 

1624 return err; 

1625  ] 


参数 get. block 是 个 函数 指针 ， 对 于 Ext2 文件 系统 它 指向 exi2, get. block( )。 这 个 冰 数 的 作用 是 为 
一 个 给 定 的 缓冲 负面 中 的 记录 块 缓冲 区 做 好 写 入 的 准备 。 如 前 所 述 ， 因 具体 文件 系统 和 设备 的 不 同 ， 
记录 块 的 大 小 也 可 能 不 同 ， 其 实际 的 大 小 记录 在 设备 的 超级 块 中 ， 从 而 在 super block 结构 中 。 一 个 页 
面 由 若干 个 记录 块 构成 。 对 于 原 已 存在 的 页 面 ， 这 些 缓冲 区 的 buffer. head 结构 都 通过 指针 b this page 
指向 同一 页 面 中 的 下 -A buffer_head， 侧 形成 缓冲 页 面 page 结构 里 的 队列 buffers。 而 如 果 是 新 分 配 建 
立 的 页 而 ， 则 要 道 过 create_empty_buffers( ) 为 该 页 面 配备 好 相应 的 buffer head 结构 ， 并 建立 起 这 个 队 
列 。 这 个 函数 的 代码 也 在 bufferc 中 : 


[sys write( ) > generic file write( ) > ext2 prepare write( ) >block_prepare_write( ) > 
. block prepare write( ) > create empty, buffers( )] 


1426 static void create empty buffers (struct page *page, kdev t dev, 


unsigned long blocksize) 
1427 { 
1428 struct buffer head *bh, *head, *tail; 


- 594 . 





第 5 章 MRS 


1429 

1430 head = create buffers(page, blocksize, 1): 
1431 if (page->buffers) 

1432 BUG ( ) ; 

1433 

1434 bh = head; 

1435 do 1 

1436 bh->b_dev = dev; 

1437 bh->b blocknr - 0; 
1438 bh-»b end io = NULL; 
1439 tail - bh; 

1440 bh = bh->b this page; 
1441 } while (bh); 

1442 tall->b_this_page = head; 
1443 page->bulffers = head; 
1444 page_cache_get (page) ; 
1445 j 


这 里 的 page. cache, get( ) 内 是 递增 page 结构 中 的 共享 计数 。 

回 到 __block_prepare_write( ) 的 代码 中 。 如 前 所 述 , 虽然 在 文件 系统 层次 上 是 以 页 而 为 单位 缓冲 的 ， 
在 设备 层次 上 却 是 以 记录 块 为 单位 缓冲 的 。 所 以 ， 如 果 一 个 缓冲 页 面 的 内 容 是 : 致 的 ， 就 意味 着 构成 
这 个 页 面 的 所 有 记录 块 的 内 容 都 “ 致 ， 芭 过 来 ， 如 果 一 个 缓冲 页 面 不 一 化 ， 则 未 必 每 个 记录 块 痢 不 一 
致 。 因 此 ， 卓 根据 写 入 的 位 置 和 长 度 找到 其 体 涉及 的 记录 块 ， 针 对 这 些 记 录 块 做 写 入 的 准备 。 

做 些 什么 准备 呢 ? 简 而 言 之 就 是 使 有 关 记 录 块 缓冲 区 的 内 容 与 设备 上 相关 记录 块 的 内 容 相 M 
如 果 缓 冲 页 面 已 经 建立 起 对 物 埋 记 录 块 的 映射 ， 则 涯 要 做 的 只 是 检查 一 下 月 录 记 录 块 的 内 容 起 否 M 
( 见 第 1607 行 和 1608 行 )， 如 果 不 “ 致 就 通过 1L_rw_block() 将 设备 上 的 记录 块 读 到 缓冲 区 中 。 出 此 可 
见 ， 对 文件 的 写 操作 实际 上 往往 是 “ 写 中 有 读 ”“ 欲 写 先 读 ” 

We, WRAY RH, MRP Sy ERRE? 那 就 比较 复杂 一 些 了 ， 因 为 根据 页 面 号 、 
页 面 大 小 、 记 录 块 大 小 计算 所 得 的 记录 块 号 ( 见 1585 行 ) 只 是 文件 内 部 的 逻辑 块 号 ， 这 是 在 假定 文件 
的 内 容 为 连续 的 线性 空间 这 么 一 个 前 提 下 计算 出 来 的 ， 而 实际 的 记录 块 在 设备 上 的 位 置 则 是 动态 地 分 
配 和 固 收 的 。 另 一 方面 ， 在 设备 层 也 根本 没有 文件 的 概念 ， 而 只 能 按 设备 上 的 记录 块 号 读 写 。 设 备 上 
的 记录 块 号 也 是 逻辑 块 号 ， 与 设备 上 的 记录 块 位 图 相对 应 。 而 设备 上 的 膛 辑 块 号 与 物理 记录 块 有 着 一 
一 对 应 的 关系 ， 所 以 在 文件 层 也 可 以 认为 是 “物理 块 号 ”。 总 而 言 之， 这 里 有 一 个 从 文件 内 的 逻辑 记录 
块 写 到 设备 上 的 记录 上 块 号 之 间 的 映射 问题 。 缺 少 了 对 这 种 映射 关系 的 描述 ， 就 无 法 根据 文件 内 的 逻辑 
块 号 在 设备 上 找到 相应 的 记录 块 。 可 想 而 知 ， 不 同 的 文件 系统 可 能 有 不 同 的 映射 关系 或 过 程 ， 这 就 是 
要 由 作为 参数 传 给 _bliock_prepare_write( ) 的 函数 指针 get. block 来 完成 这 种 映射 的 原因 。 对 十 Ext2 X 
件 系 统 这 个 函数 是 exi2, get. block( )， 在 fs/ext2/inode.c 中 


[sys_write( ) > generic file write( ) > ext2_prepare_write( ) > block prepare write( ) > 
. block prepare write( ) > ext2 get block( )] 


506 static int ext2_get_block (struct. inode *inode, long iblock, 


struct buffer head *bh result, int create) 
507 { 
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508 int err = -ETO; 

509 int offsets[4]; 

510 Indirect chain(4]; 

511 Indirect *partial; 

512 unsigned long goal; 

513 int left; 

514 int depth = ext2 block to path(inode, iblock, offsets); 

515 

516 if (depth == 0) 

517 goto out; 

518 

519 lock kernel( ); 

520 reread: 

521 partia] = ext2 get branch(inode, depth, offsets, chain, &err); 
522 

523 /* Simplest case - block found, no allocation needed */ 

524 if (!partial) { 

525 got it: 

526 bh result b dev = inode-^i dev; 

527 bh result-^b blocknr = le32 to cpu(chain[depth-1]. key) ; 
528 bh result-^b state |= (1UL << BH Mapped); 

529 /* Clean up and exit */ 

530 partial = chaintdepth-1; /* the whole chain */ 

531 goto cleanup; 

532 ) 

533 

534 /* Next simple case - plain lookup or failed read of indirect block */ 
535 if (!create || err == -EIO) { 

536 cleanup: 

537 while (partial > chain) { 

538 brelse(partial—>bh) ， 

539 partial-—: 

540 } 

541 unlock kernel( ); 

542 out: 

543 return err; 

544 } 

545 

546 /* 

547 * Indirect block might be removed by truncate while we were 
548 * reading it. Handling of that case (forget what we've got and 
549 * reread) is taken out of the main path. 

550 */ 

551 if (err == -EAGAIN) 

552 goto changed; 

553 

554 if (ext2 find goal(inode, iblock, chain, partial, &goal) < 0) 
555 goto changed; 
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556 

557 left = (chain + depth) - partial; 

558 err = ext2 alloc branch(inode, left, goal, 

559 offsetst(partial-chain), partial); 
560 if (err) 

561 goto cleanup; 

562 

563 if (ext2 splice branch(inode, iblock, chain, partial, left) « 0) 
564 goto changed; 

565 

566 bh result-^»b state i= (1UL << BI] New) ; 

567 goto got it; 

568 

569 changed: 

570 while (partial > chain) ( 

571 bforget (partial-5bh); 

572 partial--; 

513 } 

574 goto reread; 

575 } 


参数 iblock 表示 所 处 理 的 记录 块 仁 文 件 中 的 逻辑 块 号 , inode 则 指向 文件 的 inode 结构 ; 参数 create 
表示 是 否 震 要 创建 。 从 __block_prepare_write( ) 中 传 下 的 实际 参数 值 为 1, 所 以 我 们 在 这 里 只 关心 create 
为 1 的 情景 。 从 文件 内 块 号 到 设备 上 块 气 的 映射 ， 最 简单 最 迅速 的 当然 莫 过 于 使 用 一 个 以 文件 内 块 号 
为 下 标的 线性 数组 ， 并 日 将 这 个 数组 蚂 于 索引 节点 inode 结构 中。 可 是 ， 那 样 就 需要 很 大 的 数组 ， 从 而 
使 索引 节点 和 inode 结构 也 变 得 很 人 ， 或 者 就 得 使 用 吕 变 长 度 的 索引 节点 而 使 文件 系统 的 结构 更 加 复 


Ro 
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录 块 中 ， 向 将 这 些 记 站 块 的 块 号 放 在 索引 节点 和 inode 结构 中 。 这 些 记录 块 虽然 在 设备 上 的 数据 区 (而 
不 是 索引 节点 区 )》 中 ， 却 并 不 构成 文件 本 身 的 内 容 ， 而 只是”` 些 管 理 信息 。 由 十 索 别 节点 〈 和 inode 
结构 ) 应 该 是 固定 大 小 的 ， 所 以 当 文 件 较 大 时 还 要 将 这 种 间接 妨 址 的 结构 框架 做 成 树 状 或 链 状 ， 这 样 
才能 随 着 文件 本 身 的 大 小 而 扩 髓 其 容量 ， 显 然 ， 这 种 方法 解决 了 容量 的 问题 ， 但 是 降低 了 运行 时 的 效 

基于 这 些 考 虑 ， 从 Unix 早期 就 采用 三 -种 折衷 的 方法 ， 吕 以 说 是 直接 与 问 接 相 结合 。 其 方法 是 把 
整个 文件 的 记录 块 寻 址 分 成 几 个 部 分 来 实现 ,第 部 分 是 个 以 文件 内 块 号 为 下 标的 数组 ， 这 是 采用 直 
接 映 射 的 部 分 , 对 于 较 小 的 文件 这 一 部 分 就 够 用 了 。 由 于 根据 文件 内 上 块 号 就 可 以 在 inode 结构 里 的 数组 
中 直接 找 人 到 相 应 的 设备 上 块 号 ， 所 以 效率 很 高 。 全 于 比较 大 的 文件 ， 其 开头 那 一 部 分 记录 块 号 也 同样 
直接 谣 可 以 找 全， 但 是 当 文 件 的 大 小 超出 这 一 部 分 的 容量 时 ， 超 出 的 那 一 部 分 就 要 采用 间接 二 址 了 。 
Ext2 文件 系统 的 这 一 -部 分 的 大 小 为 12 个 记录 块 ， 即 数组 的 人 小 为 12。 当 记录 快 大 小 为 1K 字 节 时 ， 相 
应 的 文件 大 小 为 12K 字 节 。 在 Ext2 文件 系统 的 ext2_inode info 结构 中 ， 有 个 大 小 为 15 的 整 型 数组 
i_data[ ]， 其 开头 12 个 元 素 邮 用 于 此 项 日 。 当 文件 大 小 超过 这 一 部 分 的 容量 时 ， 该 数组 中 的 第 13 个 元 
素 指 同一 个 记录 了 快 ， 这 个 记录 块 的 内 容 也 是 一 个 整 型 数组 ， 其 中 的 每 个 元 素 部 指向 一 个 设备 上 记录 块 。 
如 果 记 录 块 大 小 为 IK EY, 则 该 数 纽 的 大 小 为 2$6, 也 就 是 说 间接 寻 址 的 容量 为 256 个 记录 块 , 即 256K 
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字 节 。 这 样 ， 岗 个 部 分 的 总 容量 为 12K + 256K=268K 字 节 。 可 是 ， 更 大 的 文件 还 是 容纳 不 下 ， 所 以 超 
过 此 容量 的 部 分 紧 进 一 步 采 用 双重 (二 层 〉 间接 导 址 。 此 时 inode £& FJ" i data[ ] 数 组 中 的 第 14 个 元 
素 指 向 另 一 个 记录 块 ， 该 记录 鼎 的 内 容 也 是 个 数组 ， 但 是 每 个 元 素 都 指向 另 一 个 记录 块 中 的 数组 ， 
那 才 是 文件 内 块 号 至 设备 上 块 号 的 映射 表 。 这 么 一 来 ， 双 重 间接 寻 址 部 分 的 能 力 为 256X256=64K 个 
记录 块 ， 别 64M 字 节 。 依 此 类 推 ， 数 组 i_data[ ] 中 的 第 15 个 元 素 用 于 三 重 〈 三 层 ) 间接 导 址 ， 这 一 部 
分 的 容量 可 达 256X256X256=16M 个 记录 块 ， 也 就 是 16G 字 节 ， 所 以 ， 对 于 32 位 结构 的 系统 ， 当 记 
录 块 大 小 为 1K 字 节 时 ， 文 件 的 最 大 容量 为 6G+64M+256K+12K。 如 果 设 备 的 容量 大 于 这 个 数值 ， 就 
得 采用 更 大 的 记录 块 大 小 了 了。 网 5.7 是 -个 关于 直接 和 间接 映射 的 示意 图 。 
i data[15] 








间 址 块 





图 5.7 多 重 间接 映射 示意 图 


从 严格 意义 上 说 ，i_data[ ] 其 实 不 能 涪 是 一 个 数组 ， 因 为 它 的 元 素 并 不 都 是 同一 类 型 的 。 但 是 ， 从 
另 一 个 角度 说 ， 则 这 些 元 素 毕竟 都 是 长 整数 ， 都 代表 着 设备 上 :个 记录 块 ， 只 是 这 些 记录 块 的 用 途 不 
问 而 已 。 

这 里 还 要 注意 ,在 inode 结构 中 有 个 成 分 名 为 让 data, 这 是 一 个 address_space 数据 结构 ,I 们 作为 inode 
结构 一 部 分 的 ext2_inode_info 结构 中 ， 也 有 个 名 为 i_data 的 数组 ， 实 际 上 就 是 记录 块 映射 表 ， 二 者 训 
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无 关系 。 从 概念 上 说 ，inode 结构 是 设备 上 的 索引 节点 即 ext2_inode 结构 的 对 应 物 ， 但 实际 上 inode 结 
构 中 的 很 多 内 容 并 非 米 白 ext2_inode 结构 。 相 比 之 下 ,ext2_inode_info 结构 中 的 信息 才 是 基本 上 与 设备 
上 的 索引 节点 相对 应 的 。 例 如 ， 与 ext2_inode_info 中 的 数组 i data[ ] 相 对 应 ， 在 ext2_inode 结构 中 也 有 
个 数组 i_block[ ]， 两 个 数组 的 大 小 也 相同 。 而 ext2_inode_info 中 的 数组 i_data[ ] 之 所 以 不 能 再 大 一 些 ， 
就 是 因为 索引 节点 中 的 数组 iblock, ] 只 能 这 么 大 了 。 那 么 内 存 中 的 inode 结构 为 什么 与 设备 上 的 索引 
节点 有 相当 大 的 不 同 昵 ?原因 在 十 设备 上 索引 节点 的 大 小 受到 网 多 的 限制 ， 所 以 在 索引 节点 中 只 能 存 
储 必 需 的 信息 ， 而 且 是 相对 静态 的 信息 。 而 内 存 中 的 inode 结构 就 不 同 了 ， 它 受 的 限制 比较 小 ， 除 了 来 
日 索引 节点 的 必需 信息 外 还 可 以 用 来 保存 ”- 些 为 方便 和 提高 运行 效率 所 需 的 信息 ， 还 有 …- 些 运行 时 需 
要 的 更 为 动态 的 信息 , 如 各 种 指针 , 以 及 为 实现 某 些 功能 所 需 的 信息 , 如 i sock i_pipe, i_wait 和 i flock 
等 等 。 还 应 提醒 读者 ， 设 备 上 的 索引 节点 数量 与 设备 的 大 小 以 及 文件 系统 格式 的 设计 有 直接 的 关系 ， 
设备 上 的 每 一 个 文件 都 有 - -个 索引 节点 , 但 是 内 存 中 的 inode 结构 则 主要 起 缓冲 性 质 的 , 实际 上 只 有 很 
小 一 部 分 文件 在 内 存 中 建立 并 保持 inode 结构 。 


有 了 这 些 背 景 知识 ， 我 们 就 可 以 深入 到 ext2_get_block( ) 的 代码 中 了 。 这 里 用 到 的 一 - 些 宏 定 义 都 在 
include/linux/ext2, fs.h FP: 


85  # define EXT2 BLOCK SIZE(s) ((s)->s_blocksize) 
90 #define EXT2_ADDR_PER_BLOCK(s) (EXT2 BLOCK SIZE(s)/sizeof ( u32) ) 


97  &8define EXT2 ADDR PER BLOCK BITS (s) ((s)—>u. ext2 sb.s addr per block bits) 


174 /* 

175 * Constants relative to the data blocks 

176 */ 

177 #define EXT2 NDIR_BLOCKS 12 

178 #define EXT2 IND BLOCK EXT2 NDIR BLOCKS 

179 #define EXT2 DIND BLOCK (EXT2 IND BLOCK + 1) 
180 #define EXT2 TIND BLOCK (EXT2 DIND BLOCK * 1) 
181 #define EXT2 N BLOCKS (EXT2 TIND BLOCK + 1) 


这 些 定义 中 的 EXT2_NDIR_BLOCKS 为 12， 表 示 直 接 映 射 的 记录 块 数量 。EXT2_IND_BLOCK 的 
信也 是 12， 表 示 在 i_datal ] 数 组 中 用 于 次 间接 映射 的 元 素 下 标 。 而 EXT2 DIND BLOCK 和 
EXT2_TIND_BLOCK 则 分 别 为 用 于 二 次 间接 和 三 次 间接 的 元 素 下 标 。 至 于 EXT2_N_BLOCKS 则 为 
i data[ ] 数 组 的 大 小 。 

首先 根据 文件 内 块 号 计算 出 这 个 记录 块 落 在 哪 一 个 区 间 ， 风 采用 几 重 映射 (1 表示 直接 )。 这 是 册 
ext2_block_to_path( ) 完 成 的 ， 其 代码 在 fs/ext2/inode.c 中 : 


{sys_write( ) > generic file write( ) > ext2_prepare_write( ) > block prepare write( ) > 
..block prepare, write( ) > ext2_get_block( ) > ext2_block_to_path( )] 


144 /#® 
145 * ext2 block to path - parse the block number into array of offsets 
146 * @inode: inode in question (we are only interested in its superblock) 
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147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 
164 
165 
166 
167 
168 
169 
170 
171 
172 
173 


174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 
186 
187 
188 
189 
190 
191 
192 
193 
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@i block: block number to be parsed 
@offsets: array to store the offsets in 


To store the locations of file’s data ext2 uses a data structure common 
for UNIX filesystems - tree of pointers anchored in the inode, with 
data blocks at leaves and indirect blocks in intermediate nodes. 

This function translates the block number into path in that tree 一 
return value is the path length and @offsets[n] is the offset of 
pointer to (n+l)th node in the nth one. If @block is out of range 
(negative or too large) warning is printed and zero returned. 


Note: function doesn’ t find node addresses, so no IO is needed. All 
we need to know is the capaciiy of indirect blocks (taken from the 
inode->i_ sb). 


X 0X X 0X X X X X X X X X X* X 


* 
M. 


* Portability note: the last comparison (check that we fit into triple 

* indirect block) is spelled differently, because otherwise on an 

* architecture with 32-bit longs and 8Kb pages we might get into trouble 

* if our filesystem had 8Kb blocks. We might use long long, but that would 
* kill us on x86. Oh, well, at least the sign propagation does not matter 
* j block would have to be negative in the very beginning, so we would not 
* get there at all. 

*/ 


static int ext2 block to path(struct inode *inode, long i block, 
int offsets[4]) 
{ 
int ptrs = EXT2 ADDR PER BLOCK (inode->i_sb) ; 
int ptrs_bits = EXT2 ADDR PER BLOCK BITS(inode-^i sb); 
const long direct blocks = EXT2 NDIR BLOCKS, 
indirect blocks = ptrs, 
double blocks = (1 «€ (ptrs bits * 2)) ; 
int n = Q; 


if (i_block < 0) { 
ext2 warning (inode->i sb, “ext2 block to path", “block < 07); 
) else if (i block < direct blocks) { 
offsets[nt+] = i block; 
| else if ( (i block — direct blocks) € indirect blocks) { 
offsets[n**] = EXT2 IND BLOCK ; 
offsets[nt+] = i block; 
) else if ((i block -= indirect blocks) € double blocks) { 
offsets[n++] = EXT2 DIND BLOCK; 
offsets[n*^] = i block >> ptrs bits; 
offsets[n-*] = i block & (ptrs - 1); 
) else if (((i block -= double blocks) >> (ptrs bits * 2)) < ptrs) | 
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194 offsets[n++] = EXT2 TIND BLOCK; 

195 offsets[n++] = i block >> (ptrs bits * 2); 

196 offsets[nt*] = (i block >> ptrs bits) & (ptrs - 1): 

197 offsets[n-^] = i block & (ptrs - 1); 

198 } else { 

199 ext2 warning (inode->i_sb, "ext2 block to path”, “block > big”); 
200 } 

201 return n; 

202  ] 


根据 上 面 这 些 宏 定义 ， 在 记录 块 大 小 为 1K 字 节 时 ， 代 但 中 的 局 部 量 ptrs 赋值 为 236， 从 前 
indirect blocks 也 是 256。 与 ptrs 相对 应 的 ptrs_bits 则 为 8， 因为 256 是 由 1 左 移 8 位 而 成 的 。 同 样 地 ， 
二 次 间接 的 容量 double blocks 就 是 由 1 左 移 16 位 ， 即 64K。 伯 一 次 间接 的 容量 为 由 1 左 移 24 位 ， 即 
16M。 

除 映射 “深度 ”外 ， 还 要 算出 在 每 一 层 映射 中 使 用 的 位 移 量 ， 册 数组 中 的 下 标 ， 并 将 计算 的 结果 
放 在 一 个 数组 offset[ ] 中 备用 。 例如, 文件 内 块 号 10 不 需要 间接 映射 , 一 步 就 能 到 位 ,所 以 返回 值 为 1， 
并 于 offset[0] 中 返回 在 第 一 个 数组 ， 即 i data ] 中 的 位 移 10。 可 是 ， 假 车 文 件 内 块 号 为 20， 则 返回 值 
为 2， 而 offset[0] 为 12，offset[1] 为 8。 这 样 ， 就 在 数组 offset[ ] 中 为 各 层 映 射 提供 了 一 条 路 线 。 数 组 的 
大 小 是 4. 因为 最 多 就 是 二 重 间接 。 参数 offset 实际 上 是 一 个 指针 , 在 C 语言 里 数组 名 与 指针 是 等 价 的 。 

如 果 ext2_block_to_path( ) 的 返回 值 为 0 表示 出 了 错 ， 因 为 文件 内 块 号 与 设备 上 块 号 之 间 至 少 也 得 
映射 一 次 。 出 错 的 原因 可 能 是 文件 内 块 号 太 大 或 为 负 值 ， 或 是 下 面 要 讲 到 的 冲突 。 和 否则 ， 就 进一步 从 
磁盘 上 逐 层 读 入 用 于 间接 映射 的 记录 块 ， 这 是 山 ext2_get_branch( ) 完 成 的 。 


[sys_write( ) > generic. file write( ) > ext2 prepare write( ) > block prepare write( ) 
> block prepare write( ) > ext2 get block( ) > ext2 get branch( )] 


204 /*k 

205 * ext2 get branch - read the chain of indirect blocks leading to data 
206 * @inode: inode in question 

207 * (depth: depth of the chain (1 - direct pointer, etc.) 

208 * @offsets: offsets of pointers in inode/indirect blocks 

209 * (chain: place to store the result 

210 * (err: here we store the error value 

211 * 

212 * Function fills the array of triples <key, p, bh> and returns %NULL 
213 * if everything went OK or the pointer to the last filled triple 

214 * (incomplete one) otherwise. Upon the return chain[i]. key contains 
215 * the number of (i+1)-th block in the chain (as it is stored in memory, 
216 * i.e. little-endian 32-bit), chainli].p contains the address of that 
217 * number (it points into struct inode for i==0 and into the bh-?b data 
218 * for i>0) and chain[i].bh points to the buffer head of i-th indirect 
219 * block for i>0 and NULL for i--0. In other words, it holds the block 
220 * numbers of the chain, addresses they were taken from (and where we can 
22] * verify that chain did not change) and buffer heads hosting these 

222 * numbers. 

223 * 
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224 * Function stops when it stumbles upon zero pointer (absent block) 
225 * (pointer to last triple returned, *@err == 0) 

226 * or when it gets an IO error reading an indirect block 

227 * (ditto, *@err == -EIO) 

228 * or when it notices that chain had been changed while it was reading 
229 * (ditto, *@err == -EAGAIN) 

230 * or when it reads alli Gdepth-1 indirect blocks successfully and finds 
231 * the whole chain, all way to the data (returns XNULL, *err == 0). 
232 */ 

233 static inline Indirect *ext2 get branch(struct inode *inode, 
234 int depth, 

235 int *offsets, 

236 Indirect chain[4], 

237 int *err) 

238 { 

239 kdev_t dev = inode->i_dev; 

240 int size = inode->i_sb->s_blocksize; 

241 Indirect *p = chain; 

242 struct buffer head *bh; 

243 

244 *err = 0; 

245 /* i data is not going away, no lock needed */ 

246 add chain (chain, NULL, inode-^u.ext2 i.i data + *offsets) ; 
247 if (!p- key) 

248 goto no block; 

249 while (--depth) ( 

250 bh = bread(dev, 1e32 to cpu(p—key), size); 

251 if ('bh) 

292 goto failure; 

253 /* Reader: pointers */ 

254 if (!verify chain(chain, p)) 

255 goto changed; 

256 add chain(^*p, bh, (u32*)bh->b data + *++offsets) ; 

257 /* Reader: end */ 

258 if (!p->key) 

259 goto no_block; 

260 ) 

261 return NULL; 

262 

263 changed: 

264 *err = -EAGAIN; 

265 goto no block; 

266 failure: 

267 *err = -EIO; 

268 no block: 

269 return p; 

270 } 
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与 前 -个 函数 中 的 offset[ ] 一 样 ， 这 里 的 参数 chain[ ] 也 是 一 个 指针 ， 指 向 个 Indirect 结构 数组 ， 
其 类 型 定义 于 fs/ext2/inode.c: 


125 typedef struct { 


126 u32 *p; 

127 u32 key; 

128 struct buffer head *bh; 
129 } Indirect: 


根据 数组 offset[ | (BR offsets 指向 这 个 数组 ) 的 指引 ， 这 个 函数 逐 层 将 用 十 记录 块 号 映射 的 记录 块 
读 入 内 存 ， 并 将 指向 缓冲 区 的 指针 保存 在 数组 chain[ ] 的 相应 元 素 ， 即 Indirect 结构 中 。 同 时 ， 还 要 使 
iX Indirect 结构 中 的 指针 p HAAR IRR SAIN A CRA) 中 的 相应 表 项 ， 并 使 字段 key 持 有 该 家 项 
的 内 容 。 具 体 Indirect 结构 的 内 容 是 由 add. chain( ) 设 置 的 : 


[sys write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( ) > 
...block prepare write( ) > ext2, get block( ) > ext2 get branch( ) > add chain( )] 


131 static inline void add chain(lndirect *p, struct buffer head *bh, u32 *v) 
132 l 


133 p->key = *(p->p - v); 
134 p->bh = bh; 
135} 


仍 以 前 面 所 举 的 两 个 逻辑 块 为 例 。 文 件 内 块 号 10 不 需要 间接 映射 ， 所 以 只 用 chain[0] 一 个 Indirect 
结构 。 其 指针 bh 为 NULL， 因 为 没有 用 十 问 接 映射 的 记录 块 : 指针 p 指向 映射 表 中 直接 映射 部 分 下 标 
为 10 Ak, Bl &inode->u.ext2_i.i_data{10]; ifj key 则 持 有 该 表 项 的 内 容 ， 即 所 映射 的 设备 上 块 号 。 相 比 
AP. AAR G 20 需要 一 次 间接 映射 ， 所 以 要 用 chain[0] 和 chainf1] 两 个 表 项 。 第 一 个 表 项 chain[0] 
中 的 指针 bh 仍 为 NULL， 因 为 在 这 一 层 上 没有 用 二 间接 映射 的 记录 块 ; 指针 p 指向 映射 表 中 目标 为 12 
处 ， 妈 及 inode->u.ext2_i.i_data[12]， 这 是 用 于 一 层 间接 映射 的 表 项 ; 而 key 则 持 有 该 表 项 的 内 容 ， 即 用 
于 一 层 间接 映射 的 记录 块 的 设备 上 块 号 。 第 二 个 表 项 chain[1] 中 的 指针 bh 则 指向 该 记录 块 的 缓冲 区 ， 
这 个 缓冲 区 的 内 容 就 是 几 作 映射 表 的 一 个 整数 数组 。 所 以 chain[1] 中 的 指名 p 指 澡 这 个 数组 中 下 标 为 8 
Ab, 而 key 则 持 有 该 表 项 的 内 容 ， 即 经 过 间接 映射 后 的 设备 上 抉 号 。 这 样 ， 根据 具体 映射 的 深度 depth. 
数组 chain[ ] 中 的 最 后 一 个 元 素 ， 更 确切 地 说 是 chain[depth 一 1].key， 总 是 持 有 目标 记录 块 的 物理 央 号 。 
而 从 chain[ ] 中 的 第 一 个 元 素 chain[0] 到 具体 映射 的 最 后 一 个 元 素 chain[depth 一 1], 则 提供 了 具体 映射 的 
整个 上 路径， 构成 了 一 条 映射 链 ， 这 也 是 数组 名 chain 的 由 来 。 如 果 把 映射 的 过 程 看 成 “ 疏 树 ”的 过 程 ， 
则 一 条 映射 链 也 可 看 成 决定 着 树 上 的 个 分 枝 ， 所 以 HU ext2, get. branch( )。 

给 定 chain[ ] 数 组 中 的 上山 个 Indirect 结构 ， 可 以 通过 一 个 隐 数 verify_chain( ) 检 查 它 们 是 否 构成 一 条 
有 效 的 映射 链 〈fsvext2xinode.c ); 


Isys write( ) > generic file write( ) > ext2 prepare write( ) > block_prepare_write( ) 
> . block prepare write( ) > ext2 get block( ) > ext2 get branch( ) > verify. chain( )] 


137 static inline int verify chain(lIndirect *from, Tndirect *to) 
138 { 
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139 while (from <= to && from-^key == *from->p) 
140 from++; 

141 return (from > to); 

142 } 


fr ext2_get_branch( ) 的 代码 中 可 以 看 到 : 从 设备 上 逐 层 读 入 用 于 间接 映射 的 记录 块 时 ， 每 通过 
bread( ) 读 入 :个 记录 块 以 后 都 要 调 川 verify_chain( ) 再 检查 :下 映射 链 的 有 效 性 ， 实 质 上 是 检查 各 层 映 
射 表 中 有 关 的 内 容 是 省 改变 了 ( 见 代 码 中 的 条 件 from->key = = *from->p)。 为 什么 有 可 能 改变 呢 ? 这 是 
因为 从 设备 上 上 读 入 -个 记录 块 是 费时 间 的 操作 ， 当 前 进程 会 进入 睡 陪 而 系统 会 调度 其 他 进程 运行 。 这 
样 ， 就 有 可 能 发 生 冲 突 了 。 例 如 ， 被 调度 运行 的 进程 可 能 会 打开 这 个 义 件 并 加 以 截 尾 ， 即 把 文件 床 有 
的 内 容 删 除 。 所 以 ， 当 因 等 待 读 入 中 间 记 录 块 而 进入 睡眠 的 进程 恢复 运行 的 时 候 ， 可 能 会 发 现 原来 有 
效 的 映射 链 已 经 变 成 无 效 了 ， 此 时 ext2_get_branch( ) 返 回 一 个 出 错 代码 一 EAGAIN。 当 然 ， 发 生 这 种 情 
况 的 概率 是 很 小 的 ， 但 是 一 个 软件 是 否 “ 健 壮 ” 束 在 于 是 否 考虑 到 了 所 有 的 可 能 。 全 于 bread( )， 那 已 
是 属于 设备 驱动 的 范畴 ， 读 少 趾 参阅 块 设备 驱动 一 章 中 的 有 关内 容 。 

这 样 ，ext2_get_branch( ) 深 化 了 ext2_block_to_path( ) 所 取得 的 结果 ,二 者 合 在 一 起 基本 完成 了 从 文 
件 内 抉 号 到 设备 上 块 号 的 映射 。 

从 ext2_get_branch( ) 返 岂 的 值 有 两 种 可 能 。 首 先 ， 如 果 顺 利 完成 了 映射 则 返回 值 为 NULL。 其 次 ， 
如 果 在 某 ` 层 上 发 现 有 映射 表 内 的 相应 表 项 为 0， 则 说 明 这 个 表 项 【记录 块 ) 原 米 并 不 存在 ， 现 在 因为 写 
操作 而 需要 扩充 文件 的 大 小 。 此 时 返回 指 疝 该 层 Indirect 结构 的 指针 ， 表示 了 映射 在 此 “断裂 ”了 。 此 外 ， 
如 果 映 射 的 过 程 中 出 了 错 ， 例 如 读 记录 块 失败 ， 则 通过 参数 err 返回 个 出 错 代码 。 

回 到 ext2_get_block( ) 的 代码 中 。 如 果 顺 利 完 成 了 映射 ， 就 把 所 得 的 结果 填 入 作为 参数 传 下 来 的 组 


录 块 写 的 映射 。 

可 是 ， 柴 是 ext2_get_branch( ) 返 回 了 一 个 非 0 指针 《代码 中 的 局 部 量 partial)， 那 就 说 明 映 射 在 其 
一 层 上 断裂 了 。 根 据 映射 的 深度 和 断裂 的 位 置 〈《 层 次 )， 这 个 记录 块 也 许 还 只 是 个 中 间 的 、 用 于 间接 员 
射 的 记录 块 ， 也 许 就 是 最 终 的 日 标 记录 块 。 总 之 ， 在 这 种 情况 下 ， 要 在 设备 上 为 目标 记录 块 以 及 可 能 
需要 的 中 间 记 录 块 分 起 空 间 。 

首先 从 本 文件 的 角度 为 目标 记录 块 的 分 配 提 出 一 个 “建议 块 号 ”， 由 ext2_find_goal( ) 确 定 
(fs\ext2\inode.c): 


[sys write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( ) > 
. block prepare, write( ) > ext2, get. block( ) > exti2 find goal( )] 


309 /六 站 

310 * ext2 find goal - find a prefered place for allocation. 

311 * @inode: owner 

312 * (block: block we want 

313 * @chain: chain of indirect blocks 

314 * @partial: pointer to the last triple within a chain 

315 * @goal: place to store the result. 

316 * 

317 * Normally this function find the prefered place for block allocation, 
318 * stores it in *Ggoal and returns zero. Tf the branch had been changed 
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319 * under us we return -EAGAIN. 

320 */ 

321 

322 static inline int ext2_find_goal (struct inode *inode, 
323 long block, 

324 Indirect chain[4], 

325 Indirect *partial, 

326 unsigned long *goal) 

327 { 

328 /* Writer: —i next alloc* */ 

329 if (block -- inode-»u. ext2 i.i next alloc block + 1) { 
330 inode—>u. ext2 i.i next alloc block; 

331 inode~>u. ext2_i. i_next_alloc_goal++: 

332 } 

333 /* Writer: end */ 

334 /* Reader: pointers, —^i next alloc* */ 

335 if (verify chain(chain, partial)) ( 

336 /* 

337 * try the heuristic for sequential allocation, 
338 * failing that at least try to get decent locality. 
339 */ 

340 if (block == inode 2u.ext2 i.i next alloc block) 
341 *goal = inode-2u.ext2 i.i next alloc goal; 
342 if (!*goal) 

343 *goal = ext2 find near(inode, partial): 

344 return 0; 

345 } 

346 /* Reader: end */ 

347 return -EAGAIN; 

348 } 


参数 block 为 文件 内 逻辑 块 号 ，goal 则 用 来 返回 所 建议 的 设备 上 日 标 块 号 。 从 本 文件 的 角度 ,当然 
布 望 所 有 的 记录 块 在 设备 上 都 紧 挨 在 一 起 并 且 连 续 。 为 此 日 的 ， 在 ext2 inode info 数据 结构 中 设置 了 
WASTE BN i_next_alloc_block 和 i_next_alloc _goal。 前 者 用 来 记录 下 一 次 要 分 配 的 文件 内 块 号 ,后 省 
则 用 来 记录 希望 下 一 次 能 分 配 的 设备 上 块 号 。 在 正常 的 情况 下 对 文件 的 扩充 是 顺序 的 ， 所 以 每 次 的 文件 
崩 据 与 都 与 前 次 的 连续 ， 而 理想 的 设备 上 块 号 也 同样 连续 ， 二 者 平行 地 向 前 推进 。 当 然 ， 这 只 是 从 
一 个 特定 文件 的 角度 提 山 的 建议 值 ， 能 否 实现 还 要 看 条 件 是 而 允 许 ， 但 是 内 核 会 尽量 满足 费 求 ， 不 能 
满足 也 会 尽 可 能 靠近 建议 的 块 号 分 配 。 

可 和 是， 文件 内 逻辑 块 号 也 有 可 能 不 连续 ， 也 就 是 说 对 文件 的 扩充 是 跳跃 的 ， 新 的 逻辑 块 号 与 文件 
原 有 的 最 后 一 个 逻辑 块 号 之 间 留 下 了 “空洞 这 种 情况 发 生 人 在 通 过 系统 调用 Iseek( ) 将 已 打开 文件 的 当 
前 读 写 位 置 推进 到 了 超出 文件 本 尾 之 后 ， 可 以 在 文件 中 造成 这 样 的 空洞 是 lseek( ) 的 一 个 重要 性 质 。 在 
这 种 情况 下 怎样 确定 对 设备 上 记录 快 号 的 建议 值 呢 ? 这 就 是 调用 ext2 find near( ) 的 有 的 。 


[sys_write( ) > generic_file_write( ) > exi2 prepare write( ) > block prepare write( ) 
» . block prepare write( ) > ext2 —get block( ) > ext2 find goal( ) > €xt2 find near( )] 
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272 /** 
273 * ext2 find_near - find a place for allocation with sufficient locality 
274 * @jnode: owner 
215 * @ind: descriptor of indirect block. 
276 * 
277 * This function returns the prefered place for block allocation. 
278 * It is used when heuristic for sequential allocation fails. 
279 * Rules are: 
280 * + if there is a block to the left of our position - allocate near it. 
281 * + if pointer will live in indirect block - allocate near that block. 
282 * + if pointer will live in inode - allocate in the same cylinder group. 
283 * Caller must make sure that @ind is valid and will stay that way. 
284 */ 
285 
286 static inline unsigned long ext2_find_near (struct inode *inode, 
Indirect *ind) 
287 { 
288 u32 *start = ind->bh ? (u32*) ind->bh->b_data : inode->u. ext2_i. i_data, 
289 u32 *p; 
290 
291 /* Try to find previous block */ 
292 for (p = indp - 1; p >= start; p—) 
293 if (kp) 
294 return 1e32 to cpu(C*p); 
295 
296 /* No such thing, so let's try location of indirect block */ 
297 if (ind->bh) 
298 return ind->bh->b_blocknr; 
299 
300 /* 
301 * It is going to be refered from inode itself? OK, just put it into 
302 * the same cylinder group then. 
303 */ 
304 return (inode—^u.ext2 i.i block group * 
305 EXT2 BLOCKS PER GROUP (inode->i_sb)) + 
306 1e32 to cpu(inode~>i_sb->u. ext2_sb. s_es~>s first data block); 
307 } 


首先 将 起 点 start 设置 成 指向 当前 映射 表 〔 映 射 过 程 中 首次 发 现 映 射 断 裂 的 那个 映射 表 ) 的 起 后 ， 
然后 在 当前 映射 表 内 往 回 搜索 。 如 果 要 分 配 的 是 空 润 后 面 的 第 … 个 记录 块 ， 那 就 要 往 回 找 到 空洞 之 前 
的 表 项 所 对 应 的 物理 块 号 ， 并 以 此 为 建议 块 号 。 当 然 ， 这 个 物理 块 已 经 在 使 用 中 ， 这 个 要 求 是 不 可 能 
满足 的 。 但 是 ， 内 核 在 分 配 物 理 记 录 块 时 会 在 位 图 中 从 这 里 开始 往 前 搜索 ， 就 近 分 配 空闲 的 物理 记录 
块 。 还 有 一 种 可 能 ， 就 是 空洞 在 个 间接 映射 表 的 开头 处 ， 所 以 往 回 搜索 时 在 本 映射 表 中 找 不 到 字 油 
之 前 的 表 项 ， 此 时 就 以 间接 映射 表 本 身 所 在 的 记录 块 作为 建议 块 号 。 同 样 ， 内 核 在 分 配 物 理 块 号 时 也 
会 从 此 开始 向 前 搜索 。 最 后 还 有 一 种 可 能 ， 空 润 就 在 文件 的 开头 处 ， 那 就 以 索引 节点 所 企 块 组 的 种 一 
个 数据 记录 块 作为 建议 块 号 。 
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[IBY ext2_get_block( ) 的 代码 中 。 设 备 上 具体 记录 块 的 分 配 ， 包 括 目标 记录 块 和 可 能 需要 的 用 于 间 
接 映射 的 中 间 记录 块 ， 以 及 映射 的 建立 ， 是 由 ext2_alloc_branch( ) 完 成 的 。 调 用 之 前 先 要 算出 映射 断 弄 
点 离 终点 的 距离 ， 也 就 是 还 有 几 层 映射 需要 建立 。 有 关 的 代码 部 在 fs/ext2yinode c th. 


[sys_write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( ) 
> . block prepare write( ) > ext2 _get_block( ) > ext2_alloc_branch( )] 


350 /*x* 

351 * ext2 alloc branch - allocate and set up a chain of blocks. 

352 * @inode: owner 

353 * @num: depth of the chain (number of blocks to allocate) 

354 * Qoffsets: offsets (in the blocks) to store the pointers to next. 

455 * (branch: place to store the chain in. 

356 * 

357 * This function allocates Gnum blocks, zeroes out all but the last one, 
358 * links them into chain and (if we are synchronous) writes them to disk. 
359 * In other words, it prepares a branch that can be spliced onto the 

360 * inode. lt stores the information about that chain in the branch[ ], in 
361 * the same format as ext2 get branch( ) would do. We are calling it after 
362 * we had read the existing part of chain and partial points to the last 
363 * triple of that (one with zero —key). Upon the exit we have the same 
364 * picture as after the successful ext2 get block( ), excpet that in one 
365 * place chain is disconnected - *branch-^p is still zero (we did not 
366 * set the last link), but branch-^key contains the number that should 
367 * be placed into *branch—»p to fill that gap. 

368 * 

369 * If allocation fails we [ree all blocks we’ ve allocated (and forget 
370 * ther buffer heads) and return the error value the from failed 

371 * ext2 alloc block( ) (normally -ENOSPC). Otherwise we set the chain 
372 * as described above and return 0. 

373 */ 

374 

375 static int ext2_alloc_branch (struct inode *inode, 

376 int num, 

377 unsigned long goal, 

378 int *offsets, 

379 Indirect *branch) 

380 { 

381 int blocksize = inode-^i sb-^s blocksize; 

382 int n = 0; 

383 int err; 

384 int i; 

385 int parent = ext2 alloc block(inode, goal, &err): 

386 

387 branch[0].key - cpu to le32(parent): 

388 if (parent) for (n = 1; n < num; nit) { 

389 struct buffer head *bh; 
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390 /* Allocate the next block */ 

391 int nr = ext2 alloc block(inode, parent, &err); 

392 if (!nr) 

393 break: 

394 branch[n]. key = cpu to le32(nr); 

395 /* 

396 * Get buffer head for parent block, zero it out and set 
397 * the pointer to new one, then send parent to disk. 
398 */ 

399 bh = getblk(inode->i_dev, parent, blocksize); 

400 if (buffer uptodate (bh) ) 

401 wait on buffer(bh); 

402 memset (bh->b_data, 0, blocksize); 

403 branch[nl.bh = bh; 

404 branch[n].p = (u32*) bh->b data + offsets[nl; 

405 *branch{n].p = branch[n). key; 

406 mark buffer uptodate(bh, 1); 

407 mark buffer dirty (bh) ; 

408 if (IS SYNC(inode) || inode->u. ext2 i.i osync) 1 
409 1] rw block (WRITE, 1, &bh); 

410 wait on buffer (bh); 

411 } 

412 parent = nr; 

413 } 

414 if (n == num) 

415 return 0; 

416 

417 /* Allocation failed, free what we already allocated */ 
418 fer (pr 1; i <n; i++) 

419 bforget (branch[i]. bh) ; 

420 for G = 0; i <n; i++) 

42] ext2 free blocks(inode, 1e32_to_cpu(branch[i].key), 1); 
422 return err; 

423  ] 


参数 num 表示 还 有 几 层 映射 需要 建立 ， 实 际 上 也 就 是 “共和 需要 分 配 几 个 记录 块 ， 指 针 branch TRIS 
前 面 的 数组 chain[ ] 中 从 映射 断裂 处 开始 的 孝 一 部 分 ，offset 则 指向 数组 offsets ] 中 的 相应 部 分 。 例 如 ， 
假若 具体 的 映射 是 三 重 间接 映射 , 而 在 第 二 层 间接 映射 表 中 发 现 相 应 表 项 为 0, HS branch 指 |nj chain[2] 
而 offset 指向 offsets[2], num 则 为 2?， 此 时 需要 分 配 的 是 用 十 第 三 层 间接 映射 表 的 记录 块 以 及 目标 记录 
块 。 从 某 种 意义 上 ， 分 配 记录 块 和 建立 映射 的 过 程 可 以 看 作 是 对 这 两 个 数组 的 “修复 ”是 存 完成 
ext2_get_branch( ) 和 ext2_block_to_path( ) 示 竞 的 事业 。 注意 代码 中 的 branchl0] 表 示 断 裂 点 的 Indirect 4 
构 ， 所 以 是 顺 着 映射 的 路 线 “ 自 顶 向 下 ” 逐 层 地 通过 ext2_alloc_block( ) 在 设备 上 分 配 记录 块 利 建立 映 
射 。 
除 最 底层 的 记录 块 , 即 目 标记 录 块 以 外 , 其 他 的 记录 快 ( 见 代码 中 的 for 循环 ?部 要 通过 getblock() 
为 其 在 内 存 中 分 配 缓冲 区 ， 并 通过 memset( ) 将 其 缓冲 区 清 成 全 0， 然后 在 该 缓冲 区 中 建立 起 本 层 的 映 
St} (403~405 行 )， 再 把 它 标 志 成 “ 脏 ” 如 果 归 求 同 步 操 作 的 话 ， 还 要 立即 调用 IL rw. block 55 
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回 到 设备 上 。 注 意 代 码 中 的 for 循环 里 而 为 之 分 配 缓 冲 区 的 是 parent， 这 都 是 用 于 问 接 映射 的 记录 块 ， 
Tf] AS PRICE A A io ER 

那么 为 付 么 日 标记 录 块 是 个 例外 ， 不 需要 为 其 分 配 缓冲 区 呢 ? 央 为 它 的 缓冲 区 在 调 几 
ext2_get_block( )Z HIM C Ze FE J. 并 用 在 调用 ext2_get_block( ) 时 把 指向 这 个 buffer head 结构 的 指针 
作为 参数 传 了 下 来 ; 而 ext2_get_block( ) 需 要 做 的 就 是 找到 目标 记录 块 的 块 号 ， 把 它 设置 到 这 个 
buffer head 结构 的 b blocknr 字段 中 。 前 面 ， 对 于 成 功 的 映射 ， 即 ext2 .get branch( RII NULL Hj, 
ext2 get block( ) 已 经 在 其 标号 got it 处 (9,525 47) PES, HBAGAMEBS. OHH, dE 
目标 记录 块 的 缓 部 区 中 当然 不 需要 再 建立 什么 映射 。 

ERFA, EWE, BKRS ANTRE REH branch[0])， 所 分 配 的 记录 块 
号 公 古 记 入 了 这 一 层 Indirect 结构 中 的 key 字段 , 却 并 末 写 入 相应 的 映射 表 表 项 中 (由 指针 p 所 指 之 处 )。 
践 好 像 我 们 有 了 一 根 树枝 ， 但 是 还 没有 使 它 长 在 树 填 。 

函数 ext2_alloc_block( ) 的 代码 也 在 fs/ext2/inode.c "P: 


[sys_write( ) > generic file write( ) > ext2_prepare_write( ) > block prepare write( ) 
> . block prepare write( ) > ext2 get block( ) > ext2_alloc_branch( ) > ext2_alloc_block( )] 


85 static int ext2 alloc block (struct inode * inode, 
unsigned long goal, int *err) 

86 { 

87 #ifdef EXT2FS DEBUG 

88 static unsigned long alloc hits = 0, alloc attempts = 0; 

89 #endif 

90 unsigned long result; 

91 

92 

93 #ifdef EXT2 PREALLOCATE 

94 /* Writer: -^i prealloc* */ 

95 if (inode-^u. ext2 i.i prealloc count && 

96 (goal == inode->u. ext2 i.i prealloc block || 

97 goal + 1 == inode-^u.ext2 i.i prealloc block)) 

98 { 

99 result = inode-2u.ext2 i.i prealloc block--*; 

100 inode->u. ext2 i.i prealloc count--; 

101 /* Writer: end */ 

102 Rifdef EXT2FS DEBUG 

103 ext2 debug ("preallocation hit (%lu/%lu). Wn", 

104 *talloc hits, **alloc attempts); 

105 #endif 

106 | else { 

107 ext2 discard prealloc (inode); 

108 Hifdef EXT2FS DEBUG 

109 ext2 debug (“preallocation miss (%lu/%lu). Wn", 

110 alloc hits, **alloc attempts) ; 

inet #endif 

112 if (S ISREG(inode->i_mode)) 

113 result - ext2 new block (inode, goal, 
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114 &inode->u. ext2_i. i_prealloc_count, 

115 &inode Yu. ext2 i.i prealloc block, err); 

116 else 

117 result = ext2 new block (inode, goal, 0, 0, err); 
118 } 

119 Helse 

120 result = ext2 new block (inode, goal, 0, 0, err): 

121 Hendif 

122 return result; 

123 } 


参数 goal 表示 建议 分 配 的 〈 或 要 求 分 配 的 ) 设备 上 记录 块 号 , 函数 的 返回 值 则 为 实际 分 配 的 块 号 。 
内 核 在 编译 时 有 个 选择 项 EXT2_PREALLOCATE ， 使 文件 系统 可 以 “ 预 分 配 ” 者 干 记录 块 ， 
ext2_inode_info 结构 中 的 i prealloc. block #il i_prealloc_count 两 个 字段 即 用 于 这 个 目的 。 我 们 假定 并 未 
采用 这 个 选择 项 ， 所 以 就 只 剩 下 对 ext2_new_block( ) 的 调用 ， 这 个 函数 的 代码 在 fs\ext2\balloc.c 中 。 可 
是 ，ext2_new_block() 的 代码 很 长 ， 有 250 行 以 上 ， 而 逻辑 却 并 不 复杂 ， 所 以 我 们 把 它 留 给 读者 ， 这 里 
只 给 出 一 些 简短 的 说 明 。 

分 配 时 首先 试图 满足 “顾客 ”的 要 求 ， 如 果 所 建议 的 记录 块 还 空闲 着 就 把 它 分配 出 去 。 否 则 ， 如 
果 所 建议 的 记录 块 已 经 分 配 掉 了， 就 试图 在 它 附近 32 个 记录 块 的 范围 内 分 配 。 还 不 行 就 向 前 在 本 块 组 
的 位 图 中 搜索 ， 先 找 位 图 中 整个 字 季 都 是 0， 即 至 少 有 连续 8 个 记录 块 空闲 的 区 间 ， 若 达 不 到 目的 再 降 
格 以 求 。 最 后 ， 如 果实 在 找 不 人 到， 就 在 整个 设备 的 范围 内 寻找 和 分 配 。 

前 面 说 过 ， 除 目标 记录 块 以 外 ， 对 分 配 的 其 余 记 录 块 部 要 通过 getblk( ) 为 其 在 内 存 中 分 配 缓冲 区 ， 
这 个 函数 的 代码 在 fts\buffer.c 中 : 


[sys_write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( ) > 
. block prepare write( ) > ext2 get block( ) > ext2_alloc_branch( ) > getblk( )] 


968 /* 

969 * Ok, this is getblk, and it isn t very clear, again to hinder 

970 * race-conditions. Most of the code is seldom used, (ie repeating), 
971 * so it should be much more efficient than it looks. 

972 * 

973 * The algorithm is changed: hopefully better, and an elusive bug removed. 
974 * 

975 * 14.02.92: changed it to sync dirty buffers a bit: better performance 
976 * when the filesystem starts to get full of dirty blocks (1 hope). 

977 */ 

978 struct buffer head * getblk(kdev t dev, int block, int size) 

979 { 

980 struct buffer head * bh; 

981 int isize; 

982 

983 repeat: 

O84 spin lock(&lru list lock); 

985 write lock(&hash table lock); 

986 bh = get hash table(dev, block, size); 
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987 if (bh) 

988 goto aut: 

989 

990 isize = BUFSIZE INDEX (size); 

991 spin lock(&free list[isizel. lock) ; 

992 bh = free listlisizel.list; 

993 if (bh) | 

994 | remove from free list (bh, isize): 

995 atomic set (&bh->b count, 1); 

996 } 

997 spin unlock (&free list[isize]. lock) ; 

998 

999 /* 

1000 * OK, FINALLY we know that this buffer is the only one of 
1001 * its kind, we hold a reference (b count?0), it is unlocked, 
1002 * and it is clean. 

1003 */ 

1004 if (bh) { 

1005 init buffer(bh, NULL, NULL); 

1006 bh-?b dev = dev; 

1007 bh->b_blocknr = block; 

1008 bh->b_ state = 1 << BH Mapped; 

1009 

1010 /* Insert the buffer into the regular lists */ 
1011 __insert_into queues (bh) ; 

1012 out: 

1013 write unlock (&hash table lock); 

1014 spin_unlock (&lru_list_lock) ; 

1015 touch buffer (bh) ; 

1016 return bh; 

1017 } 

1018 

1019 /* 

1020 * If we block while refilling the free list, somebody may 
1021 * create the buffer first ... search the hashes again. 
1022 */ 

1023 write unlock(&hash table lock); 

1024 spin unlock(&lru list lock); 

1025 refill freelist (size) ; 

1026 goto repeat; 

1027 } 


这 里 的 参数 block 为 设备 上 块 号 。 首 先 在 杂 污 表 队 列 中 查找 ， 因 为 这 个 记录 块 虽 是 新 分 配 的 ， 以 前 
为 其 分 配 的 缓冲 区 却 有 可 能 还 企 。 如 不 成 功 则 试图 从 free_list[ ] 的 相应 队列 中 分 配 。 如 果 分 配 成 功 就 加 
以 初始 化 并 通过 __insert_into_queues( )# AAR DY 228 22 BA SIA LRU 队列 (fs/bufferc): 


[sys write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( )> 
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__block_prepare_write( ) > ext2_get_block( ) > ext2_alloc_branch( ) > getblk( ) > __ insert into queues( )] 


494 static void __insert_into_queues (struct buffer head *bh) 


495 { 

496 struct buffer head *khead ~ &hash(bh->b_dev, bh->b_blocknr) ; 
497 

498 __hash_link (bh, head): 

499 __insert_into_lru_list(bh, bh—b list); 

500 } 


当然 ， 从 free list[ ] 分 配 缓冲 多 有 可 能 类 败 ， 那 就 要 通过 refill_freelist( ) 再 增添 一 些 或 者 回收 一 些 
组 冲 区 以 供 周 转 ， 其 代码 在 fs/buffer.c 中 : 


[sys_write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( )> 
.. . block, prepare. write( ) > ext2 get block() > ext2 alloc branch( ) > getblk( ) > refill freelist( )] 


759 /* 

156 * We used to try various strange things. Let's not. 
757 * We'll just try to balance dirty buffers, and possibly 
758 * launder some pages. 

159 */ 

760 static void refill freelist (int size) 

761 { 

762 balance dirty (NODEY) ; 

763 if (free shortage( )) 

764 page launder(GFP BUFFER, 0); 

765 grow buffers(size); 

766 } 


读者 将 会 看 到 ， 对 文件 的 扎 操 作 是 分 两 步 到 位 的 。 第 一 步 是 将 肉 容 写 入 缓冲 负面 中 ， 使 缓冲 页 面 
成 为 “ 脏 ” 页 面 ， 然 后 就 把 “ 脏 ” 页 面 链 入 一 个 LRU BAS, FE "Seam" AAAS bdflush 第 二 步 
是 由 bdflush HOA "Wr" MMS ASHES. Re, UMRAO, MHA Mea el 
收 了 。 内 核 线 程 bdflush B3: £87&— JC BRABSSS, PRATHER, BER ORM “PR” A "RE" 页 
面 ， 然 后 又 进入 睡眠 。 但 是 ， 为 了 提高 效率 ， 并 不 是 只 要 有 了 A “AE” RRM bdflush， 而 是 要 
到 积累 起 一 定数 量 的 “ 脏 ” 页 面 时 ,或 者 每 过 一 段 时 间 才 唤醒 它 。 涵 数 balance dirty ) 的 作用 就 是 检查 
是 否 已 经 积累 起 太 多 的 “ 脏 ” 页 面 ， 如 果 积 累 太 多 了 ， 就 把 bdfiush RR. HAASE fs/bufferc H: 


[sys_write( ) > generic, file write( ) > ext2 prepare write( ) > block_prepare_write( )> 
. .block, prepare write( ) > ext2 get block() > ext2 alloc branch( ) > getblk( ) > refill freelist( ) > 
balance. dirty( )] 


1064 /* 

1065 * if a new dirty buffer is created we need to balance bdflush. 
1066 * 

1067 * in the future we might want to make bdflush aware of different. 
1068 * pressures on different devices - thus the (currently unuscd) 
1069 * 'dev' parameter. 
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1070 */ 

1071 void balance dirty (kdev t dev) 

1072 ( 

1073 int state = balance dirty state(dev); 
1074 

1075 if (state < 0) 

1076 return; 

1077 wakeup bdflush(state); 

1078 } 


先 通 过 balance dirty stat( ) 恰 查 是 否 因为 已 经 积累 起 太 多 “ 脏 ” 页 面 而 应 该 唤醒 bdflush 。 
[sys write( ) > generic file write( ) > ext2_prepare_write( ) > block prepare write( )» 
— block. prepare, write( ) > ext2. get. block( ) > ext2 alloc branch( ) > getblk( ) > refill freelist( ) > 
balance dirty( ) » balance dirty state( )] 


858 /* -] — no need to flush 


859 0 -> async flush 

860 1 -> sync flush (wait for I/O completation) */ 
861 int balance dirty state (kdev t dev) 

862 { 

863 unsigned long dirty, tot, hard dirty limit, soft dirty limit; 
864 int shortage; 

865 

866 dirty = size buffers type[BUF DIRTY] >> PAGE SHIFT: 
867 tot = nr free buffer pages( ); 

868 

869 dirty *= 200; 

870 soft dirty limit = tot * bdf prm. b un. nfract; 

871 hard dirty limit - soft dirty limit * 2; 

872 

873 /* First, check for the “real” dirty limit. */ 
874 if (dirty > soft dirty limit) ( 

875 if (dirty > hard dirty limit) 

876 return 1; 

877 return 0; 

878 } 

879 

880 /* 

881 * [f we are about to get low on free pages and 
882 * cleaning the inactive dirty pages would help 
883 * fix this, wake up bdflush. 

884 */ 

885 shortage = free shortage( ); 

886 if (shortage && nr inactive diriy pages > shortage && 
887 nr inactive dirty pages > freepages.high) 
888 return 0; 

889 
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890 return -1; 
891 } 


如 代码 中 的 注释 所 述 ， 函 数 的 返回 值 表明 可 分 配 页 面 的 短缺 程度 。 返 回 一 1， 表 示 “ 用 ”页 面 的 
数量 还 不 多 ， 因 和 而 不 需要 唤醒 bdflush; 返回 0， 表 示 虽 然 已 经 积累 起 相当 数量 的 “及 ”页 面 ， 但 还 不 
是 很 多 ， 可 以 让 bdflush 异步 地 冲刷 而 不 需要 停 下 来 等 待 ; 返回 1， 则 表示 “ 脏 ” 页 面 的 数量 已 经 很 大 ， 
不 但 要 唤醒 bdflush， 而 肯 当 前 进程 党 要 停 下 来 等 待 其 完成 ， 因 为 此 时 即使 继续 往 前 也 多 半分 配 不 到 空 
闲 页 面 了 。 不 过 ， 在 具体 实现 的 时 候 又 作 了 一 些 优 化 。 这 是 因为 : 一 来 不 知道 bdflush 与 当前 进程 的 优 
PEP SA, un bdflush 的 优先 级 比 当 前 进程 的 低 则 即使 响 醒 了 也 调度 个 上 ; 二 来 既然 总 着 要 用 空 
闲 页 面 , 需求 量 又 不 大 , 还 不 如 “自己 动手 , EKER”, 先 直 接 冲 刷 出 若干 “ 脏 ” 页面， 然后 再 让 bdflush 
继续 慢 慢 冲 刷 。 这 样 , 将 这 个 函数 的 返回 值 用 作 调用 wakeup_bdflush( ) 的 参数 ,就 决定 了 企 唤 醒 bdflush 
以 后 是 否 直接 调用 flush_dirty_buffers( )。 

[sys_write( ) > generic_file_write( ) > ext2 prepare write( ) > block_prepare_write( )> 
.. block prepare write( ) > ext2 get block( ) > ext2 alloc branch( ) > getblk( ) > refill freelist( ) > 
balance. dirty( ) > wakeup. bdflush( )] 


2591 struct task siruct *bdflush_tsk = 0; 


2502 

2593 void wakeup_bdflush (int block) 

25904 f 

2595 if (current !- bdflush tsk) { 
2596 wake up process (bdflush tsk); 
2597 

2598 if (block) 

2599 flush dirty buffers(0); 
2600 ) 

} 


这 里 的 全 局 量 指针 bdflush_tsk 在 初始 化 时 设置 成 指向 bdflush 的 task struct. 45/4). 这 里 的 
wake_up_process( ) 是 个 inline 函数 ， 它 将 目标 进程 唤醒 ， 并 道 过 reschedule_idle( ) 比 较 月 标 进程 和 当前 
进程 的 综合 权 值 ， 如 果 日 标 进程 的 权 值 更 高 就 把 当前 进程 的 need_schedule 字段 设 成 1， 请 求 一 次 调度 

( 详 见 第 4 章 )。 然 后 就 根据 参数 的 值 决定 是 否 直 接 调用 flush_dirty_buffers( )， 其 代码 在 fs/buffer.c 中 ， 
[sys_write( ) > generic_file_write( ) > ext2_prepare_write( ) > block_prepare_write( )> 


— block prepare, write( ) > ext2_get_block( ) > ext2_alloc_branch( ) > getblk( ) > refill. freelist( ) > 
balance dirty( ) > wakeup_bdflush( ) > flush, dirty. buffers( )] 











2530 / =-===========-=-====== bdflush support ----2------2-2------— */ 

2531 

2532 /* This is a simple kernel daemon, whose job it is to provide a dynamic 
2533 * response to dirty buffers. Once this process is activated, we Write back 
2034 * a limited number of buffers to the disks and then go back to sleep again. 
2535 */ 

2536 


2537 /* This is the only function that deals with flushing async writes 
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2938 
2539 
2540 
2041 
2542 
2043 
2544 
2545 
2546 
2547 
2548 
2549 
2000 
2551 
2552 
2553 
2594 
25955 
2556 
2557 
2558 
2559 
2560 
2561 
2062 
2563 
2964 
2565 
2566 
2567 
2568 
2969 
2570 
2571 
2572 
2573 
2574 
2575 
2576 
2577 
2918 
2019 
2580 
2081 
2582 
2583 
2984 
2585 


to disk. 
NOTENOTENOTENOTE: we only need to browse the DIRTY lru list 
as all dirty buffers lives only. in the DIRTY lru list. 
As we never browse the LOCKED and CLEAN lru lists they are infact 
completly useless. */ 
static int flush_dirty_buffers (int check flushtime) 
{ 
struct buffer head * bh, *next: 
int flushed = 0, i; 


restart: 
spin lock(&lru list lock); 
bh = lru list[BUF DIRTY]; 
if (!bh) 
goto out unlock; 
for (i = nr buffers type[BUF DIRTY]; i-- > 0; bh = next) { 
next = bh-?b next free; 


if (buffer dirty(bh)) { 
__refile buffer (bh) ; 


continue; 

} 

if (buffer locked(bh)) 
continue; 


if (check flushtime) { 
/* The dirty lru list is chronologically ordered so 
if the current bh is not yet timed out, 
then also all the following bhs 
will be too young. */ 
if (time before(jiffies, bh->b flushtime)) 
goto out unlock; 
} else { 
if (++flushed > bdf_prm. b_un. ndirty) 
goto out_unlock; 


} 


/* OK, now we are committed to write it out. */ 
atomic inc(&bh-5b count); 

spin unlock(&lru list lock); 

1l rw block(WRITE, 1, &bh); 

atomic dec(&bh ->b count); 


if (current-^need resched) 
schedule( ); 
goto restart; 


} 


out_unlock: 
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2586 spin unlock(&lru list lock); 
2587 

2588 return flushed; 

2589 } 


为 了 不 至 于 扯 得 太 远 ， 我 们 把 这 段 代码 留 给 读者 在 看 完了 本 章 以 后 同 过 来 自行 阅读 ， 注 意 2581 
-的 current->need_resched 是 在 前 面 wake_up_process( ) 中 根据 bdflush 和 当前 进程 的 优先 级 相对 大 小 而 
置 的 。 

冲刷 一 个 “ 脏 ” 页 面 的 结果 是 把 它 的 内 容 号 回 到 文件 中 ， 为 内 存 页 面 的 回收 创造 了 条 件 ， 但 是 并 
不 等 于 已 经 回收 了 页 面 。 另 一 方面 ， 只 要 内 存 页 面 不 很 短缺 ， 则 保留 这 些 页 面 的 内 容 为 可 能 发 生 的 进 
一 步 读 写 提供 了 缓冲 ,有 利 寸 提 高 效率 。 所 以 ， 同 到 refill_freelist( ) 的 代码 中 以 后 ,接着 ( 见 前 面 的 763 
行 一 764 行 ) 就 根据 系统 中 页 面 短缺 的 程度 决定 是 否 调用 page_launder( )， 详 情 nj 参考 第 2 章 中 的 有 关 

内 容 。 

最 后 通过 grow_buffers( ) 再 分 配 若干 页 面 ， 制 造 出 一 些 缓冲 区 来 ， 现 在 条 件 已 经 具备 了 。 我 们 把 
grow. buffers( ) 的 代码 列 在 这 里 让 读者 自己 阅读 。 


1 


—— 
uw 


x 


= 





[sys_write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( )> 
.. block, prepare write( ) > ext2 get block( ) > ext2 alloc branch( ) > getblk( ) > refill freelist( ) > 
grow buffers( )] 


2244 /* 

2245 * Try to increase the number of buffers available: the size argument 
2246 * is used to determine what kind of buffers we want. 
2247 x/ 

2248 static int grow buffers(int size) 

2249 | 

2290 struct page * page; 

2251 struct buffer head *bh, *tmp; 

2292 struct buffer head * insert_point; 

2253 int isize; 

2254 

2255 if ((size & 511) || (size > PAGE_SIZE)) { 

2256 printk( VFS: grow buffers: size = %d\n”, size); 
2257 return 9; 

2258 } 

2259 

2260 page = alloc page(GFP_BUFFER) ; 

2261 if (!page) 

2262 goto out; 

2263 LockPage (page) ; 

2264 bh = create buffers (page, size, 0); 

2265 if (tbh) 

2266 goto no_buffer head; 

2267 

2268 isize = BUFSLZE, INDEX (size); 

2269 
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2270 
2211 
2272 
2273 
2274 
2275 
2276 
2211 
2278 
2279 
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2281 
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2291 
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[sys_write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( ) > 
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spin lock(&free listlisizel. lock}; 
insert point - free listlisize]. list; 
tmp > bh; 
while (1) | 
if (insert point) { 
tmp-2b next free = insert poini-^b next free; 
tmp-»b prev free = insert point; 
insert point-5b next free->b prev free = tmp; 
insert point—b next free = tmp; 
} else { 
tmp->b_prev free = tmp; 
tmp->b next free = tmp; 
} 
insert point = tmp; 
if (tmp->b this page) 
tmp = tmp-?b this page; 
else 
break; 
| 
tmp-^b this page - bh; 
free _listLisize]. list = bh; 
spin_unlock (kfree_listlisize]. lock) ; 


page->buffers = bh: 

page->flags &- ~(1 << PG referenced); 
lru cache add(page); 

UnlockPage (page) ; 

atomic inc (&buffermem pages); 

return 1; 


no buffer head: 


UnlockPage (page) ; 
page cache release(page); 


return 0; 


} 


__block_preparc_write( ) > ext2 get block( ) > ext2_splice_branch( )] 


结果 了 ex alloc branch ( ) 的 执行 ， 回 到 ext2, get block( HM, dle epu d EDA T NEED 
记录 块 ， 包 括 用 于 间接 映射 的 中 间 记 录 块 ， 但 是 原先 映射 开始 断 开 的 最 高 层 上 所 分 配 的 记录 块 
记 入 了 其 Indirect 结构 中 的 key 字段 ， 却 并 末 写 入 柑 应 的 映射 表 中 。 现 在 就 要 把 “树枝 ” 接 到 树 上 (将 
米 ， 随 着 文件 内 容 的 扩展 ， 这 树枝 会 长 成 了 上 树 )。 同 时 ， 还 需要 对 所 属 inode 结构 中 的 有 关内 容 作 一 些 
调整 。 这些 都 是 由 ext2_splice_branch( ) 完 成 的 ， 其 代码 在 fs\ext2\inode.c 中 ， 
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* ext2 splice branch - splice the allocated branch onto inode. 

* @inode: owner 

* @block: (logical) number of block we are adding 

* @chain: chain of indirect blocks (with a missing link - see 

* ext2 alloc branch) 

* (where: location of missing link 

* (num: number of blocks we are adding 

* 

* This function verifies that chain (up to the missing link) had not 
* changed, fills the missing link and does all housekeeping needed in 
* inode (->i blocks, etc.). In case of success we end up with the full 
* chain to new block and return 0. Otherwise (== chain had been changed) 
* we free the new blocks (forgetting their buffer heads, indeed) and 
* return -EAGAIN. 

*/ 


static inline int ext2 splice branch(struct inode *inode, 
long block, 
Indirect chain[4], 
Indirect *where, 
int num) 


int i1; 
/* Verify that place we are splicing to is still there and vacant */ 


/* Writer: pointers, —>i_next_alloc*, —>i_blocks */ 
if (Iverify chain(chain, where-1) || *where->p) 

/* Writer: end */ 

goto changed; 


/* That's it */ 

*where->p = where-?key; 

inode—>u. ext2 i.i next alioc block = block; 
inode->u. ext2 i.i next alloc goal = 1e32 to cpu(where[num-1]. key) ; 
inode-^i blocks += num * inode->i_sb->s_blocksize/512; 

/* Writer: end */ 

/* We are done with atomic stuff, now do the rest of housekeeping */ 
inode->i_ctime = CURRENT TIME; 

/* had we spliced it onto indirect block? */ 

if (where->bh) { 


mark buffer dirty (where->bh) ; 
if (IS SYNC(inode) || inode->u. ext2_i.i_osync) { 
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474 1l rw block (WRITE, 1, &where—>bh) : 
475 wait_on_buffer (where->bh) : 

476 } 

477 } 

478 

479 if (IS SYNC(inode) |; inode->u. ext2_i. i_osync) 
480 ext2_sync_inode (inode): 

481 else 

482 mark inode dirty (inode) ; 

483 return Q; 

484 

485 changed: 

486 for (i = 1; i < num; i++) 

487 bforget (where[i]. bh) ; 

488 for (i = 0; i < num; i++) 

489 ext2 free blocks(inode, 1e32 to cpu(where[i].key), 1): 
490 rcturn -EAGAIN; 

491 } 


这 里 的 第 459 行将 原来 映射 开始 断 开 的 那 一 层 上 所 分 配 的 记录 块 号 写 入 了 相应 的 映射 表 中 。 X^ 
映射 表 也 许 就 是 inode Kr. CEU] He BEE ext2_inode_info 结构 中 ) 的 数组 i. datar ], 也 许 是 一 个 用 于 问 
接 映射 的 记录 块 。 如 果 相 应 Indirect 结构 中 的 指针 bh 为 0 (必定 是 chain[0])， 则 映射 表 就 在 inode 结构 
中 。 和 否则， 就 定 是 个 间接 映射 表 ， 因 此 在 改变 了 其 内 容 以 后 要 将 其 标志 成 “ 脏 ”。 如 果 要 求 同 步 写 ， 
则 还 要 立即 把 它 写 回 设备 。 

又 回 到 ext2_get_block( ) 中 ， 现 在 已 经 万 事 俱 备 了 。 转 到 标号 got it 处 ， 把 映射 后 的 记录 块 号 连同 
Wik SHA bh, result 所 指 的 缓冲 区 结构 由， 就 完成 了 什 务 。 有 了 这 些 信 息 ， 将 来 就 可 以 把 缓冲 区 的 内 
容 写 到 设备 上 了 。 

从 ext2 get block( ) 返回 ， 就 回 到 了 __block_prepare_write( ) 中 的 第 1586 行 。 对 于 
-.block prepare write( ) 而 言 ，ext2_get_block( ) 为 其 完成 了 从 文件 内 块 号 到 设备 上 块 号 的 映射 ， 这 个 目 
标记 录 块 也 许 是 新 的 ， 也 许 原来 就 存在 。 如 果 日 标记 录 块 是 .一 个 新 分 配 的 记录 块 ， AE ERIN IT 
内 容 与 设备 上 的 内 容 是 否 一 敏 的 问题 。 但 是 如 果 内 存 中 的 某 -- 个 其 他 缓冲 区 仍 持 有 该 记录 块 以 前 的 内 
容 ， 并 且 还 在 杂凑 表 的 某 个 队列 中 ， 则 此 将 那个 缓冲 jx 从 杂凑 队列 中 脱 链 并 释放 。 这 是 通过 
unmap_underlying_metadata( ) 完 成 的 。 反之， 如 果 上 日 标记 录 块 是 原 已 存在 的 记录 块 ， 则 仍 有 内 容 是 天 一 
BULL, MRA BARAT IL nw. block ) 从 设备 上 读 入 。 这 样 ， 当 _block_prepare_write( ) 中 的 
for 币 环 结束 时 ， 所 有 涉及 本 次 写 操作 的 物理 记录 块 (缓冲 区 〉 都 已 找到 ， 需 要 从 设备 上 读 入 的 则 山 经 
问 设备 驱动 层 发 出 访 入 记录 块 的 命令 。 通过 wait on buffer( ) 等 待 这 些 命令 执行 完毕 CI, 1616 行 一 1621 
行 ) 以 后 ， 写 操作 的 准备 工作 就 完成 了 。 

ELT... block prepare write( ) 是 block_prepare_write( ) 的 主体 ，“. 旦 从 前 者 返回 ， 后 者 也 就 结束 了 ， 
而 后 者 义 实 际 上 就 是 ext2_prepare_write( )， 所 以 就 返 加 到 了 generic_file_write( ). 

在 generic_file_write( ) 中 是 在 一 个 while 循环 中 通过 由 具体 文件 系统 所 提供 的 函数 为 写 文件 操作 作 
准备 的 。 准备 好 了 以 后 就 可 以 从 用 户 空间 把 待 写 的 内 容 复制 到 缓冲 区 中 ， 实际 上 起 绥 冲 页 面 中 。 为 方 
便 读 者 阅读 ， 我 们 再 把 while 循环 体 中 的 :一 个 片段 列 出 ; 
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[sys write( ) > generic file write( )] 


2533 status = mapping->a ops->prepare write(file, page, 
offset, offset+bytes) ; 
2534 if (status) 
2539 goto unlock; 
2536 kaddr = page address (page) ; 
2537 status = copy from_user(kaddrtoffset, buf, bytes); 
2538 flush dcache page (page); 
2539 if (status) 
2540 goto fail write; 
2541 status = mapping—^a ops-?commit write(file, page, 


offset, offsettbytes) ; 


为 写 操作 作 好 了 准备 以 后 ， 从 缓冲 区 SRE) 到 设备 上 的 记录 块 这 条 路 就 畅通 了 了。 这 样 才 可 
以 从 用 户 空间 把 待 写 的 内 容 复制 过 来 。 

如 前 所 述 ， 目 标记 录 块 的 缓冲 区 在 文件 层 是 作为 缓冲 页 而 的 - -部 分 而 存在 的 ， 所 以 这 是 从 用 户 空 
间 到 缓冲 页 面 的 拷贝 ， 具 休 道 过 copy_from_user( ) 完 成 。 这 里 buf 指向 用 户 空间 的 缓冲 区 , 而 《kaddr + 
offset) 为 缓冲 页 而 中 的 起 始 地址 ，bytes 则 为 该 页 面 中 待 拷贝 的 长 度 ， 这 些 都 是 在 while 循环 的 开头 计 
算 好 了 的 。 对 于 i386 结构 的 处 理 器 ，flush_dcache_page( ) 是 空 操 作 。 

写 入 缓冲 页 面 以 后 ， 还 此 把 这 些 缓冲 页 面 提交 给 内 核 线程 kflushd， 这 样 写 操 作 才 算 完成 。 人 军 十 
kflushd 是 否 来 得 及 马上 将 这 些 记录 块 写 园 设备 上 ， 那 是 另 一 回 事 了 。 这 个 将 缓冲 页 面 提交 给 kflushd 
的 操作 也 是 因 文件 系统 而 异 的 ， 由 具体 文件 系统 通过 其 address space operations. 结构 中 的 函数 指针 
commit. write 提供 ， 对 于 Ext2 文件 系统 ， 这 个 函数 是 generic_commit_write( )， 其 代码 在 fs/buffer.c 中 : 


[sys_write( ) > generic, file write( ) > generic_commit_write( )] 


1844 int generic commit write (struct file *file, struct page *page, 


1845 unsigned from, unsigned to) 

1846 { 

1847 struct inode *inode = page->mapping->host; 
1848 loff t pos = ((loff t)page-^index << PAGE CACHE SHIFT) + to; 
1849 . block commit write (inode, page, from, to) ; 
1850 kunmap (page) ; 

1851 if (pos > inode->i size) { 

1852 inode->i size = pos; 

1853 mark inode dirty (inode) ; 

1854 ) 

1855 return 0; 

1856  j 


其 主体 block commit. write( ) 的 代 但 也 在 同一 文件 中 ， 而 kunmap( ) 对 十 1386 结构 的 处 理 器 为 学 
操作 。 
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[sys_write( ) > generic_file_write( ) > generic_commit_write( ) > __block_commit_write( )] 


1627 static int ._block commit write (struct inode *inode, struct page *page, 
1628 unsigned from, unsigned to) 

1629 { 

1630 unsigned block_start, block_end; 

1631 int partial = 0, need balance dirty = 0; 

1632 unsigned blocksize; 

1633 struct buffer head *bh, *head: 

1634 

1635 blocksize = inode->i_sb->s_blocksize; 

1636 

1637 for(bh = head = page->buffers, block start = 0; 

1638 bh != head || !block start: 

1639 block start-block end, bh = bh->b this page) { 

1640 block end = block start + blocksize; 

1641 if (block end <= from || block start >= to) Í 

1642 if (!buffer uptodate (bh) ) 

1643 partial = 1; 

1644 } else { 

1645 set bit (BH Uptodate, &bh->b state); 

1646 if (latomic set buffer dirty (bh)) | 

1647 |. mark dirty(bh); 

1648 buffer insert inode queue(bh, inode); 

1649 need balance dirty = 1; 

1650 ) 

1651 ) 

1652 } 

1653 

1654 if (need balance dirty) 

1655 balance dirty (bh->b dev); 

1656 /* 

1657 * is this a partial write that happened to make all buffers 
1658 * uptodate then we can optimize away a bogus readpage( ) for 
1659 * the next read( ). Here we 'discover' wether the page went 
1660 * uptodate as a result of this (potentially partial) write. 
1661 */ 

1662 if (partial) 

1663 SetPageUptodate (page) ; 

1664 return 0; 

1665 } 


es PY) for AHRR PARE ide, OR ido RS ABIUIE] CM from 到 to) 
相交 ， 就 把 该 记录 块 的 缓冲 区 设 成 “up to date”, 即 与 设备 上 的 记录 块 相 - 致 ， 并 将 其 标志 成 dirty， 下 
面 的 事 就 交 给 kflushd 了 。 值 得 注意 的 站 这 里 已 经 将 绥 冲 区 的 BH_Uptodate 标志 位 设 成 1, Xo ERIS 
的 内 容 已 经 与 设备 上 相 … 致 。 可 是 ， 实 际 上 此 时 缓冲 区 的 内 容 尚未 与 回 设备 ， 所 以 从 物理 上 说 显然 是 
不 致 的 。 但 是 ， 由 于 写 操作 本 车 已 接近 完成 ， 涉 及 的 缓冲 区 即将 提交 给 kflushd， 从 逻辑 的 角度 上 绥 
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冲 区 中 的 内 容 与 设备 上 的 内 容 已 经 - 狼 了 。 所 以 所 谓 “ 一 致 ”或 “不 致 ”只 是 一 个 逻辑 上 的 概念 ， 
而 并 非 物理 上 的 概念 。 只 要 写 入 的 内 容 已 经 “提交 ”(commit)， 就 认为 已 经 一 禾 了 。 出 不 一 致 的 状态 
只 发 生 人 在 写 操作 的 中 途 ， 即 改变 了 缓冲 区 【或 部 分 缓 部 区 )》 的 内 容 而 尚未 提交 之 前 。 在 写 入 的 准备 阶 
B, BAET “ 致 的 缓冲 区 就 此 从 设备 上 重新 读 入 ， 就 是 因为 有 林 完 成 的 扎 操 作 存 在 出 破坏 了 缓冲 区 的 
内 容 。 此 外 ,在 将 缓冲 区 设置 成 dirty 时 , 如果 庶 缓 冲 区 凤 来 是 “干净 ”的 ,那么 一 来 此 调用 __mark_dirty( )， 
二 来 要 将 need balance dirty 设 成 1。 调 用 _mark_dirty( ) 的 目的 是 将 缓冲 区 根据 有 具体 情况 转移 到 合适 
的 LRU 队列 中 ， 有 关 的 代码 均 在 文件 fs/buffer.c P: 





[sys_write( ) > generic file write( ) > generic commit write( ) > __ block commit write( ) 
> mark dirty( )] 


1080 static | inline | void , mark dirty (struct buffer head *bh) 
1081 { 


1082 bh->b flushtime = jiffies + bdf prm.b un. age buffer; 
1083 refile buffer (bh) ; 
1084} 


[sys write( ) > generic_file_write( ) > generic commit write( ) > __ block commit write( ) 
> mark dirty( ) > refile buffer( )] 


1124 void refile buffer (struct buffer head *bh) 


H25. 1 

1126 spin lock(&lru list lock); 
1127 | refile buffer (bh); 

1128 spin unlock(&lru list lock); 
1129  ] 


[sys write( ) > generic file write( ) > generic commit write( ) »... block commit write( ) 
> mark dirty( ) > refile_buffer( )] 





1102 /* 

1103 * A buffer may need to be moved from one buffer list to another 
1104 * (e.g. in case it is not shared any more). Handle this. 
1105 */ 

1106 static void __refile buffer (struct buffer head *bh) 

1107 [ 

1108 int dispose = BUF CLEAN; 

1109 if (buffer locked (bh) ) 

1110 dispose = BUF LOCKED; 

1111 if (buffer dirty (bh) ) 

1112 dispose = BUF DIRTY; 

1113 if (buffer_protected (bh) ) 

1114 dispose = BUF PROTECTED; 

1115 if (dispose !- bh->b list) 1 

1116 remove from lru list(bh, bh 5b list): 

1117 bh- >b list = dispose; 

1118 if (dispose == BUF CLEAN) 
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1119 remove_inode_queue (bh) ; 

1120 | insert into lru list(bh, dispose); 
1121 } 

1122 } 


数据 结构 buffer head 通过 其 指针 b. next. free 和 b_prev_free ££ A aa NÆ PA Fi] Bg A LRU 
队列 中 ， 而 作为 记录 块 缓冲 区 LRU 队列 头 部 的 Iru. list ] 则 是 一 个 指针 数组 ， 其 定义 见 文件 fs/butfer.c: 


82 static struct buffer head *lru list [NR LIST]; 


iX ^ 2 £B de UA RRA RASA FERE Cinclude/linux/fs.h) . 


991 #define BUF CLEAN 0 

992 #define BUF LOCKED 1 /* Buffers scheduled for write */ 

993 #define BUF DIRTY 2 /* Dirty buffers, not yet scheduled for write */ 
994 8define BUF PROTECTED 3 /* Ramdisk persistent storage */ 

995 #define NR LTST 4 


这 样 ， 对 处 于 各 种 不 同 状态 的 记录 块 缓冲 区 ， 就 各 自 有 一 个 LRU BAS) mj bdflush 就 只 扫描 
Iru_list[BUF_DIRTY] 队 列 。 

最 后 ， 只 要 有 记录 块 缓冲 区 从 “干净 ”状态 变 成 “及 ”状态 ， 也 就 是 如 果 need balance dirty 为 1， 
就 要 通过 balance_dirty( ) 看 看 这 样 的 记录 块 是 否 已 经 积累 到 了 一 定 的 数量 ， 如 果 是 ， 就 唤 雌 bdflush 进 
行 一 次 “ 济 刷 ”。 这 个 函数 的 代码 已 经 在 前 面 看 证 过 了 。 

不 管 是 否 立 即 歇 醒 bdflush， 总 之 此 后 的 事情 就 交 给 它 了 。 我 们 将 在 设备 叔 动 一 章 小 回 旬 这 个 话题 
上 来 。 

完成 了 generic_commit_write( ) 以 后 ，generic_file_write( ) 中 的 一 轮 循 坏 ， 也 就 是 对 一 个 缓冲 页 面 的 
写 入 就 完成 了 。 从 而 对 该 页 面 的 使 用 也 结束 了 ， 所 以 要 通过 page cache release( ) 递 减 对 该 页 面 的 使 用 
计数 。 

总 结对 一 个 缓冲 页 面 的 写 文件 操作 ， 大 致 可 以 分 为 三 个 阶段 。 第 一 是 准备 阶段 ， 第 二 是 缓冲 页 面 
的 写 入 阶段 ， 最 后 是 提交 阶段 。 完 成 了 对 所 涉及 的 所 有 页 面 的 循 十 ， 整 个 写 文 件 操作 的 主体 
generic file write( ) 就 告 结 束 ， 并 且 sys write( ) 也 随 着 结束 了 。 

理解 了 sys write( ), 再 来 看 sys_read( ) 就 容易 一 些 了 ,这 两 个 函数 几乎 是 一 样 的 , 内 是 在 sys_write( ) 
中 要 验证 用 户 空间 的 缓冲 区 可 读 ， 并 且 使 用 file operations 结构 中 的 函数 指针 write, TE sys_rcad( ) 
中 则 要 验证 用 户 空 间 的 缓冲 区 可 写 ， 并 且 使 用 file operations 结构 中 的 函数 指针 read. st Ext2 文件 系 
统 的 读 操 作 而 言 ， 这 个 函数 指针 指向 generic file read( })， 其 代码 也 在 mm/filemap.c P: 


[sys_read( ) > generic file read( )] 


1237 /* 

1238 * This is the "read( )" routine for all filesystems 

1239 * that can use the page cache directly. 

1240 */ 

1241 ssizc_t generic_file_read (struct file * filp, char * buf, 


size t count, loff t *ppos) 
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1242 { 

1243 ssize_t retval; 

1244 

1245 retval = -EFAULT; 

1246 if (access ok(VERIFY WRITE, buf, count)) | 
1247 retval = 0; 

1248 

1249 if (count) { 

1250 read descriptor t desc; 
1251 

1252 desc. written = 0; 

1253 desc. count = count; 

1254 desc. buf = buf; 

1255 desc. error = 0; 

1256 do generic file read(filp, ppos, &desc, file read actor); 
1257 

1258 retval = desc. written; 
1259 if (!retval) 

1260 retval = desc.error; 
1261 } 

1262 } 

1263 return retval; 

1264} 


显然 ， 这 个 函数 只 是 do. generic. file, read ) 的 “包装 ”。 其 日 的 在 于 检 坦 对 用 户 字 间 缓 冲 区 的 写 访 
问 权 ， 并 为 读 文 件 操作 准备 下 一 个 “ 读 操 作 描述 结构 ”， 即 read descriptor t 数据 结构 ， 以 减少 在 凋 川 
do_generic_file_read( ) 时 传递 参数 的 个 数 。 

由 于 do_generic_file_read( ) 的 代码 比较 长 ， 我 们 还 是 分 段 阅读 ， 其 代码 在 同一 文件 filemap.c H: 


[sys_read( ) > generic_file_read( ) > do generic file read( )] 


1005 /* 

1006 * This is a generic file read routine, and uses the 

1007 * inode->i op->readpage( ) function for the actual low-level 

1008 * stuff. 

1009 * 

1010 * This is really ugly. But the goto s actually try to clarify some 

1011 * of the logic when it comes to error handling etc. 

1012 */ 

1013 void do generic file read(struct file * filp, loff t *ppos, 
read descriptor t * desc, read actor t actor) 

1014 { 

1015 struct inode *inode = filp->f_dentry—>d_inode; 

1016 struct address space *mapping - inode-^i mapping; 

1017 unsigned long index, offset; 

1018 struct page *cached page; 

1019 int reada ok; 
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1020 int error; 

1021 int max readahead = gct max rcadahead(inode); 

1022 

1023 cached page - NULL: 

1024 index = *ppos >> PAGE CACHE SHIFT; 

1025 offset = *ppos & "PAGE CACHE MASK; 

1026 

1027 /* 

1028 * Tf the current position is outside the previous read-ahead window, 
1029 * we reset the current read-ahead context and set read ahead max to zero 
1030 * (will be set to just needed value later), 

1031 * otherwise, we assume that the file accesses are sequential enough to 
1032 * continue read-ahead. 

1033 */ 

1034 if (index > filp->f_raend || index + filp->f_rawin < filp->f_raend) { 
1035 reada_ok = 0; 

1036 filp->f raend = O0; 

1037 filp->f ralen = 0; 

1038 filp->f ramax = 0; 

1039 filp->f_rawin = 0; 

1040 } else { 

1041 reada_ok = 1; 

1042 } 

1043 /* 

1044 * Adjust the current value of read-ahead max. 

1045 * If the read operation stay in the first half page, force no readahead. 
1046 * Otherwise try to increase read ahead max just enough to do the read request. 
1047 * Then, at least MIN READAHEAD if read ahead is ok, 

1048 * and at most MAX READAHEAD in all cases. 

1049 */ 

1050 if (index && offset + dese->count <= (PAGE CACHE SIZE >> D) { 
1051 filp->f_ramax = 0; 

1052 } else { 

1053 unsigned long needed; 

1054 

1055 needed = ((offset + desc->count) >> PAGE CACHE SHIFT) + 1; 

1056 

1057 if (filp-^f ramax € needed) 

1058 filp->f_ramax = needed; 

1059 

1060 if (reada ok && flilp-»f ramax < MTN READAHEAD) 

1061 filp->f_ramax = MIN READAHEAD; 

1062 if (filp->f_ramax > max readahocad) 

1063 filp->f_ramax = max rcadahead; 

1064 } 

1065 


参数 actor 是 一 个 函数 指针 , 这 里 的 实际 参数 是 file_read_actor( )， 这 个 函数 的 作用 是 将 文件 的 内 容 
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从 缓冲 页 面 拷贝 到 用 户 空 间 的 缓冲 区 中 。 
文件 的 读 操 作 有 个 比 写 操 作出 复杂 之 处 ， 那 就 是 预 读 。 我 们 在 本 节 开 头 时 曾 谈 到 过 预 读 ， 现 在 
斌 要 涉及 其 体 的 代码 了 。] 巴 读 量 的 大 小 是 与 具体 设备 有 关 的 ， 内 核 中 设 党 了 一 个 以 主 设备 号 为 下 标的 
数组 max_readahead[ ]， 其 定义 在 drivers/block/ll rw. blk.c FP: 


111 /* 
112 * The following tunes the read-ahead algorithm in mm/filemap.c 
113 */ 


114 int * max readahead [MAX BLKDEV]; 


pgs ZOXE HAERES TERIS DAE SAPNA — 7 RECSORR S. ASAP CR UAE 
每 个 具体 设备 的 最 大 预 读 量 。 同 时 ， 内 核 中 还 提供 了 -个 inline 函数 get max readahead( )， 利 用 这 个 
水 数 根据 inode 结构 中 的 设备 号 就 可 确定 对 特定 文件 的 最 大 预 读 量 。 这 个 函数 的 定义 在 mnyfilemap.c 
中 ， 代 公 的 作者 述 为 之 写 了 一 大 段 注释 ， 我 们 把 它 … 并 列 在 下 面 。 


[sys. write( ) > generic_file_read( ) > do generic file read( ) > get max readahead( )] 





829 /& 

R30 * Read-ahcad context: 

831 a a 

832 * The read ahead context fields of the “struct file” are the following: 
833 * — f raend : position of the first byte after the last page we tried to 
834 * read ahead. 

835 * - f ramax : current read-ahead maximum size. 

836 * — fľ ralen : length of the current IO read block we tried to read-ahead. 
837 * — f rawin : length of the current read-ahead window. 

838 * if last read-ahead was synchronous then 

839 * f rawin = f ralen 

840 * otherwise (was asynchronous) 

841 * f rawin = previous value of f ralen + f ralen 

842 * 

843 * Read ahead limits: 

844 米 一 一 一 一 一 一 一 一 一 一 一 

845 * MIN READAHEAD  : minimum read-ahead size when read ahead. 

846 * MAX READAHEAD : maximum read-ahead size when read-ahead. 

847 * 

848 * Synchronous read-ahead benefits: 

849 * 站 

850 * Using reasonable IO xfer length from peripheral devices increase system 
851 * performances. 

R52 * Reasonable means, in this context, not too large but not too small. 

853 * The actual maximum value is: 

854 * MAX READAHEAD + PAGE CACHE SIZE - 76k is CONFIG READA SMALL is undefined 
855 * and 32K if defined (4K page size assumed). 

856 * 

857 * Asynchronous read-ahead bencfils: 
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858 米 一 一 一 一 一 一 一 一 一 一 一 一 ~ ce a  ——— 

859 * Overlapping next read request and user process execution increase system 

860 * performance. 

861 * 

862 * Read-ahead risks: 

863 玉生 

864 * We have to guess which further data are needed by the user process. 

865 * [f these data are often not really needed, it's bad for system 

866 * performances. 

867 * However, we know that files are often accessed sequentially by 

868 * application programs and it seems that it is possible to have some good 

869 * strategy in that guessing. 

870 * We only try to read-ahead files that seems to be read sequentially. 

871 * 

872 * Asynchronous read-ahead risks: 

873 * T = MID 

874 * In order to maximize overlapping, we must start some asynchronous read 

875 * request from the device, as soon as possible. 

876 * We must be very careful! about: 

877 * — The number of effective pending TO read requests. 

878 * ONE seems to be the only reasonable value. 

879 * — The total memory pool usage for the file access strcam. 

880 * This maximum memory usage is implicitly 2 10 read chunks: 

881 * — 2x(MAX READAHEAD + PAGE CACHE SIZE) - 156K if CONFIG READA SMALL 
is undefined, 

882 * 64k if defined (4K page size assumed). 

883 */ 

884 

885 static inline int get max readahead (struct inode * inode) 

886s { 

887 if (!inode->i dev || !max readahead [MAJOR (inode->i_dev) ]) 

888 return MAX READAHEAD; 

889 return max readahead[MAJOR(inode-^i dev) ] [MINOR (inode->i_dev) ]; 

890 } 


这 里 的 常数 MAX_READAHEAD 定义 为 31， 即 31 个 页 面 ，124K F. 

如 前 所 述 ， 出 于 预 谈 的 引入 ， 现 在 file 结构 中 此 维持 两 个 上 下 文 了 。 一 个 是 以 “当前 位 置 ” 人 pos 
为 代 胡 的 真正 的 读 / 写 1 下 文 ， 另 一 个 则 是 预 读 的 上 下 文 。 为 此 目的 在 file 结构 中 增设 了 f_reada、 
f ramax. f raend. f ralen LAX f rawin 等 五 个 字段 。 这 五 个 字段 的 名 称 反 映 了 它们 的 用 途 ， 人 代码 作 者 
(ER PVE SUCH. PTI “WE hc”, 实际 上 是 一 个 窗口 。 窗 口 的 末端 咕 是 f_raend， 而 窗口 
的 大 小 则 为 在 rawin。 与 写 操作 相似 ， 局 部 量 index 为 当前 读 写 位 置 所 在 页 面 的 序号 ，offset NA TIMA 
的 位 移 。 如 果 读 操作 的 起 始 页 面 落 在 预 读 窗 口 的 外 面 , te index 大 于 预 读 窗 口 的 终点 页 所 或 者 小 于 
预 读 窗口 的 起 始 页 面 ， 那 么 现存 的 预 读 窗口 与 当前 的 读 操作 就 没有 什么 关系 了 ， 所 以 要 为 起 炉灶 来 - 
BPR BH CI 1034 一 1039 行 )。 人 否则 就 是 如 何 推 进 现 有 访 读 窗口 的 问题 ， 所 以 先 保 持 现 有 的 窗 
UAE, MARE read ok WEX 1. Wha, WE file 结构 中 的 最 大 孩 读 星 作 bU. uns Anu 
要 求 的 读 操 作 仅仅 局 限 在 文件 的 第 一 个 页 所 的 前 半 衣 分 中 进行 【 见 1050 行 )， 那 就 根本 不 需要 预 污 ， 
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所 以 将 file 结构 中 的 f_ramax 字段 设 成 0. 否 则 就 要 依据 整个 读 操 作 所 涉及 的 页 面 数量 needed 和 - 些 常 
量 、 参 数 适 当 调 整 f ramax 字段 的 数值 CL 1057 一 1063 行 )。 对 预 读 操作 上 下文 作 了 这 些 准备 以 后 ， 
就 开始 读 了 。 继 续 看 do_generic_file_read( ) 的 代码 : 


[sys_read( ) > generic file read( ) > do generic file read( )] 





1066 for da) 

1067 struct page *page, **hash; 

1068 unsigned long end index, nr; 

1069 

1070 end index = inode->i size >> PAGE CACHE SIITFT; 
1071 if (index > end index) 

1072 break; 

1073 nr - PAGE CACHE SIZE; 

1074 if (index == end index) { 

1075 nr = inode->i size & "PAGE CACHE. MASK; 
1076 if (nr <= offset) 

1077 break; 

1078 j 

1079 

1080 nr = nr - offset; 

1081 

1082 f* 

1083 * Try to find the data in the page cache.. 
1084 */ 

1085 hash = page hash(mapping, index): 

1086 

1087 spin lock(&pagecache lock); 

1088 page = find page nolock(mapping, index, *hash) ; 
1089 if (page) 

1090 goto no cached page; 

1091 found page: 

1092 page cache get (page) ; 

1093 spin unlock(&pagecache lock); 

1094 

1095 if (!Page Uptodate (page)) 

1096 goto page not up to date; 

1097 generic file readahead(reada ok, filp, inode, page); 
1098 page ok: 

1099 /* If users can be writing to this page using arbitrary 
1100 * virtual addresses, take care about potential aliasing 
1101 * before reading the page on the kernel side. 
1102 */ 

1103 if (mapping-^i mmap shared != NULL) 

1104 flush dcache page (page); 

1105 

1106 /* 
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1107 * Ok, we have the page, and it's up-to-date, so 

1108 * now we can copy it to user space... 

1109 * 

1110 * The actor routine returns how many bytes were actually used.. 
1111 * NOTE! This may not be the same as how much of a user buffer 
1112 * we filled up (we may be padding etc), so we can only update 
1113 * “pos” here (the actor routine has to update the user buffer 
1114 * pointers and the remaining count). 

1115 */ 

1116 nr = actor(desc, page, offset, nr); 

1117 offset += nr; 

1118 index += offset >> PAGE CACHE SIITFT; 

1119 offset &= "PAGE CACHE MASK; 

1120 

1121 page_cache_release (page) ; 

1122 if (nr && desc count) 

1123 continue; 

1124 break; 

1125 


不 难 想像 ， 整 个 读 操作 是 通过 “个 循环 完成 的 ， 这 个 循环 依次 走 过 所 涉及 的 每 个 缓 首页 面 ， 完 成 
从 这 些 页 面 的 读 出 。 由 于 这 个 for 循环 内 部 的 流程 比较 复杂 ， 我 们 通过 一 个 假想 的 情景 来 遍历 这 个 for 
循环 的 代码 ， 这 个 情景 涉及 对 二 个 缓冲 页 面 的 读 出 。 

与 写 操作 不 同 ， 当 读 操 作 的 位 置 到 达 了 《或 超出 了 》 文件 的 森 尾 就 结束 了 《〈 见 1070~1078 47), 
而 不 像 写 操作 或 lseek( ) 那 样 将 文件 的 末尾 向 前 推进 。 只 更 还 没有 到 达 文 件 的 永 尾 ， 就 根据 页 面 的 大 小 
或 者 日 标 文件 在 其 最 后 -一 个 页 面 中 的 大 小 nr' 以 及 丐 操作 在 当前 页 面 中 的 起 点 offset 计算 出 从 当前 页 面 
读 出 的 长 度 〔 见 1073 一 1080 行 )。 

决定 了 从 当前 页 面 中 读 出 的 长 度 以 后 ， 苞 要 设法 找 色 或 读 入 相应 的 缓冲 抽身 了 。 首 先 当然 是 根据 
日 标 页 面 的 杂 凌 值 从 杂凑 表 队 齐 中 寻找 〈 见 1085 一 1088 行 )。 了 寻找 的 结果 有 三 种 可 能 ， 第 -种 是 找 不 
到 ， 第 二 种 是 找到 了 ， 但 是 该 缓冲 页 面 的 内 容 不 一 致 ， 第 三 种 是 既 找到 了 所 需 的 缓冲 页 面 ， 抽 面 的 内 
XH 

在 我 们 的 情景 里 ， 假 定 第 个 缓冲 页 面 找 到 了 ， 并 且 一 致 ， 所 以 就 到 达 了 第 1098 行 的 page ok 
标号 处 。 虹 然 找到 了 目标 负面， 下 面 的 事情 就 顺 理 成 贡 了。 如 前 所 述 ， 参 数 actor 是 个 函数 指针 ， 这 个 
8 针 实际 上 指 同 file read actor( )。 它 的 作用 就 是 从 缓冲 页 面 把 内 容 复制 到 用 户 空间 的 缓冲 | 改 中， 并 相 
应 调整 读 操 作 描 述 结构 中 的 待 读 出 长 度 ， 最 后 返回 已 复制 的 长 度 。 完 成 了 从 绥 六 页 面 中 的 读 出 以 后 ， 
号 根据 file_read_actor( ) 的 返回 值 nr 将 index 和 offset 两 个 变量 的 值 向 前 推进 ， 并 将 当前 页 面 释放 OX 
减 其 使 用 计数 )。 在 我 们 这 个 情景 中 ， 从 这 个 抽 面 读 出 的 长 度 nr 非 0， 尚 待 读 出 的 长 度 也 还 未 达到 0， 
所 以 经 由 第 1123 行 的 continue 诸 铅 开始 下 “ 轮 循环 《和 否则 就 经 出 第 1124 行 的 break 语句 结束 循 坏 )。 

我 们 假定 寻找 第 二 个 日 标 页 面 的 结果 也 找到 了 ,但 是 页 和 面 的 内 容 不 -一致 ， 所 以 在 第 1096 行 转移 到 
标号 page, not, up. to. date 处 : 


[sys read( ) > generic file read( ) > do generic file read( )] 
1126 /* 
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1128 
1129 
1130 
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1154 
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1158 
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1160 
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1165 
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* Ok, the page was not immediately readable, so let's try to 
read ahead while we're at it.. 
*/ 
page not up to date: 
generic file readahead(reada ok, filp, inode, page); 


if (Page Uptodate(page)) 
goto page ok; 


/* Get exclusive access to the page... */ 
lock page (page) ; 


/* Did it get unhashed before we got the lock? */ 
if (!page->mapping) { 

UnlockPage (page) ; 

page cache release (page) ; 

continue; 


} 


/* Did somebody else fill it already? */ 
if (Page Uptodate(page)) { 

UnlockPage (page) ; 

goto page ok; 


readpage: 
/* ... and start the actual read. The read will unlock the page. */ 
error = mapping->a_ops—>readpage (filp, page); 


if (error) { 
if (Page Uptodate (page) ) 
goto page_ok; 


/* Again, try some read-ahead while waiting for the page to finish.. */ 
generic file readahead(reada ok, filp, inode, page); 
wait on page (page); 
if (Page Uptodate (page) ) 
goto page ok; 
error - -EIO; 


} 


/* UHHUH! A synchronous read error occurred. Report it */ 
desc-^error = error; 

page cache release(page); 

break; 


AT XC RE AUS S6 MATRES EARRAK. GAARA BES AAT RR, mé 
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由 于 某 个 进程 正在 写 包括 这 个 页 面 在 内 的 某 些 页 而 ,但 尚未 提 余 所 造成 的 ， : 般 只 要 等 待 一 会 儿 就 行 了 。 
可 既然 要 等 待 ， 就 不 如 乘机 预 读 一 些 页 面 进来 ， 所 以 通过 generic file readahead( ) 启 动 预 读 。 我 们 把 这 
个 函数 的 阅读 暂时 放 一 上 个 ， 在 这 里 只 要 知道 这 个 函数 启动 预 读 就 行 了 。 不 过 雪 注 意 ， 这 里 说 的 是 启动 
预 读 ， 而 不 是 完成 预 读 ， 实 际 的 页 面 读 入 是 异步 的 。 

局 荔 了 预 读 以 后 ， 再 米 检查 当前 的 日 票面 是 否 已 经 一 致 《 见 第 1132 行 )。 如 果 已 经 一 致 了 那 就 
Ff) page ok 标 写 处 (第 1098 行 )， 下 面 就 与 第 “个 页 面 的 情况 相同 了 。 如 果 还 没有 ME? BAE 
从 议 备 上 把 这 个 页 而 读 回 来 。 读 之 前 紫 先 把 页 面 锁 住 ， 注 意 这 里 的 lock_page( ) 可 能 隐 含 着 等 待 ， 因 为 
这 页 面 可 能 已 经 被 别 的 进程 锁 住 了 。 特 别 是 这 个 页 面 还 不 一 致 ， 就 说 明 有 某 个 进程 正在 对 其 进行 写 操 
作 ， 很 可 能 就 是 这 个 进程 锁 住 了 页 面 。 所 以 ，lock_page( ) 的 过 程 实际 上 就 是 睡眠 等 待 尖 前 锁 住 这 个 页 
面 的 进程 完成 其 操作 并 且 解 锁 的 过 程 。 当 从 lock_page( ) 返 回 时 ， 这 个 页 面 已 经 被 当前 进 称 锁 住 了 。 正 
因为 这 样 ， 就 很 有 可 能 当 加 锁 成 功 时 页 面 已 经 一 致 了 ， 所 以 要 再 次 加 以 检查 ， 如 果 确 已 一 艇 ， 就 把 锁 
解除 并 转向 page ok. 

要 是 加 了 锁 而 和 只 面 仍旧 没有 达到 一 致 ， 那 就 无计可施 ， 只 好 从 设备 上 把 页 面 读 回 来 ， 这 就 到 了 标 
号 readpage 处 。 对 具体 文件 系统 和 设备 的 读 操作 是 由 具体 的 address_space_operations 数据 结构 通过 函 
数 指针 readpage 提供 的 ， 对 于 Ext2 文件 系统 这 个 函数 是 ext2_readpage( )， 其 代码 在 fs/ext2/inode.c P: 





[sys_read( ) > generic file read( ) > do_generic_file_read( ) > ext2_readpage( )] 


657 static int ext2 readpage(struct [ile *file, struct page *page) 
658 d 

659 return block read full page (page, ext2 get block); 

660 } 


XX P eh AU et OBL II PAX, RD block read full page( ) 完 成 操作 ， 而 以 ext2_get_block( ) 作 为 调 
用 的 参数 之 一 。 读 者 应 该 还 记得 ，ext2_get_block( ) 完 成 Ext2 XERA BR SBS Eo 
HUBS]. AX block read full page( ) 的 代码 在 fs/buffer.c "P: 


[sys read( ) > generic. file read( ) > do, generic file read( ) > ext2 readpage( ) > block_read_full_page( )] 


1667 /* 

1668 * Generic “read page” function for block devices that have the normal 
1669 * get_block functionality. This is most of the block device filesystems. 
1670 * Reads the page asynchronously ——- the unlock buffer( ) and 

1671 * mark buffer uptodate( ) functions propagate buffer state into the 
1672 * page struct once IO has completed. 

1673 */ 


1674 int block read full page (struct page *page, get block t *get block) 
1675 { 


1676 struct inode *inode = page 2mapping-^host; 

1677 unsigned long iblock, lblock; 

1678 struct buffer head *bh, *head, *arr[MAX BUF PER PAGE]: 
1679 unsigned int blocksize, blocks; 

1680 int nr, d: 

1681 
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1691 
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if (!PageLocked (page) ) 
PAGE BUG (page) ; 
blocksize = inode->i sb->s_blocksize; 
if (!page-^ buffers) 
create empty buffers(page, inode-^i dev, blocksize) ; 
head = page->butfers; 


blocks = PAGE CACHE STZE >> inode->i_sb->s_blocksize bits; 
iblock - page->index << 
(PAGE CACHE SHIFT - inode-^i sb >s blocksize bits); 
lblock = (inode— i size*blocksize-1) >> inode-^i sb-^s blocksize bits; 
bh = head; 
nr = 0; 
1 = Q; 


do | 
if (buffer uptodate (bh)) 
continue; 


if (!buffer mapped(bh)) { 
if (iblock < lblock) { 
if (get block(inode, iblock, bh, 0)) 
continuo; 
j 
if (!buffer mapped(bh)) 1 
memset (kmap (page) 4 i*blocksize, 0, blocksizo); 
flush deache_page (page) ; 
kunmap (page) ; 
set_bit (BI Uptodate, &bh->b_state) ; 
continuc; 
j 
/* get block( ) might have updated the buffer synchronously */ 
if (buffer uptodate(bh)) | 


continue; 
) 
arr[nr] = bh; 


) while (i++, iblock**, (bh - bh—b this page) !- head) ; 


if (Inr) | 

[* 

* all buffers are uptodate - we can set the page 
* uptodate as well. 

*/ 

SetPageUptodate (page) ; 

UnlockPage (page) ; 

return 0; 
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1729 } 

1730 

1731 /* Stage two: lock the buffers */ 
1732 for (41.2 06 i< nr; ili) 4 

1733 struct buffer head * bh = arr[i]; 
1734 lock buffer (bh) ; 

1735 bh ?»b end io = end buffer io async; 
1736 atomic inc(&bh-5b. count) ; 

1737 } 

1738 

1739 /* Stage 3: start the [0 */ 

1740 tor (i = 0; i X nr; i++) 

1741 submit bh (READ, arr[il); 

1742 

1743 return 0; 

1744 } 


入 个 缓冲 页 面 都 包含 着 若干 记录 块 缓冲 |X ,page 数据 结构 中 的 buffer. head 指针 buffers 指向 这 些 组 
冲 区 的 buffer head 数据 结构 队列 。 如 果 一 个 缓冲 页 面 尚 未 建立 起 这 样 的 队列 ， 就 要 通过 
create_empty_buffers( ) 加 以 创建 。 很 自然 地 ， 然 后 是 对 构成 该 负面 的 各 个 记录 块 缓冲 区 的 御 环 。 以 前 讲 
过 ， 一 个 页 而 的 内 容 不 一 致 并 不 说 明 构成 这 个 页 面 的 所 有 记录 块 都 不 一 和 化。 所 以 ， 如 果 个 记录 块 的 
AAS NR EN CL 1698 行 的 continue 语 凶 )。 如 果 一 个 记录 块 缓 冲 区 尚未 与 设备 上 的 物 
FH VOR ER t A PRI A AR CLAS 1700 110, 凡 且 这 个 记录 块 的 起 始 地 址 并 未 超出 义 件 的 末尾 《多 第 1701 
行 和 第 1702 行 )， 就 要 通过 作为 参数 传递 下 米 的 函数 建立 起 映射 。 在 这 里 ， 对 十 Ext2 文件 系统 而 言 ， 
这 个 函数 就 是 ext2_get_block( )， 我 们 已 经 在 前 面 读 过 它 的 代码 。 

不 过 ， 这 里 对 这 个 冰 数 的 调用 与 写 文件 时 有 所 不 同 ,， 那 就 是 第 三 个 参数 为 0， 向 在 号 操作 时 这 个 参 
数 为 1。 这 个 参数 表示 如 果 尚 末 为 给 定 的 滥 辑 记录 块 分 配 物理 记录 鼎 的 话 ， 是 否 要 为 之 分 配 一 个 。 我 们 
在 前 面 读 ext2, get block( ) 的 代 介 时 跳 过 了 当 这 个 参数 为 0 时 的 那 一 部 分 ， 现 在 回 过 头 去 看 一 下 。 该 阴 
数 代码 中 标号 cleanup 前 有 个 if(!ereat ... 384A); “4 ext2_get_branch( ) 返 回 了 一 个 非 0 指针 ， 表 示 尚 未 为 
给 定 的 逻辑 记录 块 分 屿 物理 记 录 块 时 , 就 由 这 个 if 语句 决定 怎么 办 。 如 果 参 数 create 为 0， 就 表示 不 为 
之 分 配 物 理 记 录 块 ， 此 时 并 不 设置 相 记 缓冲 尖 头 部 中 的 有 关 宁 段 ， 也 并 不 将 其 BH_MAPPED 标志 位 设 
BE 1. 

所 以 ， 如 果 在 调用 了 ext2_get_block() 以 后 缓冲 区 的 映射 仍 森 建立， 就 表示 这 个 逻辑 记录 块 尚 无 与 
之 对 应 的 物理 记录 块 。 这 种 情况 发 生存 通过 Iseek( ) 系 统 调用 在 文件 中 引入 了 空洞 以 后 。 

从 空洞 中 读 出 的 内 容 是 什么 呢 ? 请 看 下 面 紧 接着 的 儿 行 。 就 是 说 ， 如 果 迪 辑 记 录 块 沙 在 一 个 空 泣 
内 ， 就 把 它 清 成 全 0， 上 所 以 读 出 的 内 容 也 是 侈 0。 慷 么 ， 什 么 时 候 才 为 这 个 风 辑 记录 块 分 配 设备 上 的 物 
理 空 间 呢 ? 要 等 到 对 这 个 记录 块 进行 写 操作 的 时 候 。 到 那 时 , 调用 ext2_get_block( ) 的 第 三 个 参数 create 
是 |， 就 会 为 之 分 配 物理 记录 块 了 。 

除 这 册 种 悄 况 以 外 ， 那 束 是 已 经 建立 起 映射 但 是 内 容 不 一致 的 页 面子 。 这 种 页 面 是 真正 舌 要 从 设 
备 上 该 入 的 页 面 ， 所 以 方面 通过 init_buffer( ) 对 buffer head 结构 进行 一 些 设置 ， 主 柴 是 对 两 数 指针 
bend io Hj d E. XXX RE LOS T WB) VO 完成 时 要 局 动 的 操作 ， 在 这 里 是 
end buffer io async(). PRX init buffer( PARTH Æ buffer.c 中 : 
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[sys_read( ) > generic file read( ) > do generic file read( ) > ext2_readpage( ) > block read full page( ) > 
init buffer( )] 


768 void init buffer (struct buffer head *bh, bh end io t *handler, 
void *private) 


769 | 
770 bh->b_list - BUF CLEAN; 
771 bh->b_end io = handler; 
772 bh->b_private = private; 
773 } 


虽然 这 个 记录 块 是 肯定 要 从 设备 上 读 入 的 ， 但 是 却 并 不 立即 就 在 循环 体内 启动 对 设备 的 操作 ， 而 
只 是 先 把 真正 需要 读 入 的 记录 块 缓冲 区 收集 在 一 个 指针 数组 amr ] 中 《 见 第 1733 行 )。 这 个 数组 随后 人 
作为 参数 传递 给 1L_rw_block( )， 桨 积 昧 起 来 的 属于 同 -页 面 的 记录 块 成 批 地 读 入 ， 而 对 1Lrw_block( ) 
的 调用 则 留待 对 记录 块 的 循环 结束 以 后 。 

记录 块 的 读 入 是 需要 一 定时 间 的 ， 沿 Urw_block( ) 实 际 上 只 是 启动 记录 块 的 读 入 ， 所 以 从 
1_bw_block() 以 及 随 之 从 ext2_readpage( ) 的 返回 和 读 入 的 完成 (通过 DMA 完成 ) 起 异 步 的 ， 互相 半 行 
的 。 

这 样 ， 当 返回 到 do_generic_file_read( ) 中 时 (第 1155 行 )， 页面 中 需要 读 入 的 记录 块 也 次 已 经 全 部 
完成 ， 从 而 使 负面 的 PG_UPTODATE 标志 位 已 经 变 成 了 1， 表 明 该 页 面 的 内 容 已 经 一 致 ， 但 是 也 有 避 
能 尚未 全 部 完成 而 页 面 的 内 容 尚 未 一 致 。 如 果 是 前 者 就 转 入 page_ok， 此 后 的 操作 就 与 前 述 第 -个 页 面 
的 情况 相同 了 。 

可 是 如 果 尚 未 完成 呢 ? 那 就 需要 等 待 。 婚 然 要 等 待 ， 那 何不 干脆 再 多 读 一 些 记 录 块 进来 备用 呢 ? 
所 以 这 里 又 调用 处 理 预 读 的 generic file readahead( ). STA RMA E — 8I At S 
page. not, up to date 执行 下 来 进入 readpage 的 路 线 而 言 , 这 已 经 是 第 二 次 调用 generic. file readahead() 
T. 但 是 进入 readpage 的 路 线 并 非 只 有 这 么 一条， 所 以 这 里 的 预 读 一 方面 也 是 出 于 对 其 他 情况 的 考虑 ， 
这 一 点 读者 以 后 就 会 看 到 。 

虽然 通过 预 读 消 耗 了 一 些 时 间 , 日 标 负 面 的 读 入 仍 不 能 肯定 已 经 完成 ,所 以 要 通过 wait_on_page( ) 
加 以 检验 或 等 待 。 到 页 而 《实际 上 是 其 中 的 若干 记录 块 ) 的 读 入 肯定 已 经 完成 时 ， 页 面 的 PG_uptodate 
标志 位 应 该 为 1， 否 则 就 有 错 了 。 这 里 Page_Uptodate( ) 所 作 的 仪 仅 是 一 种 检验 而 不 包含 等 待 ， 而 
wait_on_page( ) 则 包含 了 可 能 的 睡眠 等 待 。 

目标 页 面 的 读 入 顺利 完成 以 后 ， 就 转向 page_ok， 此 后 的 操作 就 义 与 前 述 第 个 页 面相 同 了 。 完 
成 了 第 :个 缓冲 页 面 的 读 出 以 后 ， 由 于 所 要 求 的 读 出 少 未 完成 ， 又 通过 第 1123 行 的 continue 语句 四 到 
T for 循环 的 开头 。 

这 一 次 ， 由 丁 涉及 的 第 三 个 逻 界 负面 没 有 被 缓冲 在 内 存 中 ，__find_page_nolock( ) 返 回 NULL, 所 
以 就 转 到 了 no_cached_page。 我 们 在 文件 filemap.c 中 继续 往 下 看 : 





[sys, read( ) > generic file read( ) > do . generic file read( )] 


1172 no cached page: 


1173 /* 
1174 * Ok, it wasn’t cached, so we need Lo create a new 
1175 * page.. 
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1176 * 

1177 * We get here with the page cache lock held. 
1178 */ 

1179 if (!cached page) { 

1180 spin unlock(&pagecache. lock); 

1181 cached page = page cache alloc( ); 

1182 if (!cached page) | 

1183 desc—>error = -ENOMEM; 

1184 break; 

1185 } 

1186 

1187 /* 

1188 * Somebody may have added the page while we 
1189 * dropped the page cache lock. Check for that. 
1190 */ 

1191 spin lock(&pagecache lock); 

1192 page = | find page nolock(mapping, index, *hash); 
1193 if (page) 

1194 goto found page; 

1195 } 

1196 

1197 /* 

1198 * Ok, add the new page to the hash-queues... 
1199 */ 

1200 page = cached page; 

1201 . add to page cache(page, mapping, index, hash); 
1202 spin unlock(&pagecache lock); 

1203 cached page = NULL: 

1204 

1205 goto readpage; 

1206 ) 

1207 

1208 *ppos = ((loff t) index << PAGE CACHE SHIFT) + offset; 
1209 filp->f_reada = 1; 

1210 if (cached_page) 

1211 page cache free(cached pago); 

1212 UPDATE ATIME (inode) ; 

1219-3 


既然 在 内 存 中 尚未 为 目标 页 面 建立 起 缓冲 ， 那 就 不 仪 仪 是 从 设备 读 入 的 问题 了 ， 在 此 之 前 还 辈 为 
之 分 配 一 个 抽 面 。 在 有 前面 第 1023 行 中 指针 cached. page 初始 化 成 NULL， 表 示 没 有 已 经 分 贞 ! 但 尚未 使 
用 的 缓冲 和 页面 ， 所 以 这 里 通过 page_cache_alloc( ) 分 配 一 个 抽 面 备用 。 但 是， 在 分 配 成 功 以 后 还 些 圭 检 
查 一 次 日 标 页 面 是 否 已 经 缓冲 ( 见 第 1182 行 )， 这 是 因为 在 page_cache_alloc( ) 中 当前 进程 有 可 能 进入 
睡眠 ， 从 而 有 可 能 计 别 的 进程 抢先 为 日 标 页 面 建 立 了 缓冲 。 如 果 这 种 情况 果真 发 生 了 ， 那 就 转 入 
found_page， 此 后 的 操作 就 与 前 述 的 第 一 和 第 二 个 页 面相 同 了 。 全 于 分 配 得 的 页 而 cached_page， 则 成 
了 “已 经 分 生 但 尚未 使 用 的 缓冲 页 而 ”， 我 们 不 必 忙 着 将 其 释放 ， 因 为 也 许 以 后 还 会 有 和 需要， 如 果 确 实 
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没有 需要 就 拖延 到 最 后 在 第 1211 行 中 加 以 释放 。 合 则 ， 要 是 没有 发 乍 这样 的 情况 ， 那 就 将 分 配 得 的 页 
面 链 入 到 所 有 有 关 的 队列 中 ,包括 由 所 属 inode 结构 中 的 指针 i_mapping 所 指向 的 address_space 结构 ( 通 
常 是 inode 结构 中 的 i_data) PMMA RAR. 4 s E E E HAAS EMA 
i LRU 队列 。 然 后 就 转向 readpage， 此 后 的 操作 就 与 前 述 第 个 负面 的 一 部 分 操作 相同 了 。 

由 于 这 已 经 是 涉及 的 最 后 一 个 页 面 ， 折 以 从 这 个 页 面 的 读 出 完成 以 后 ， 就 通过 第 1124 行 的 break 
语句 结束 for 循环 而 到 达 第 1208 行 ， 在 这 里 对 file 结构 中 的 fpos FROIN. ER, index 和 offset 
的 值 在 循环 小 每 次 都 在 向 前 推进 ( 见 1117 一 1119 行 ), 所 以 此 时 已 经 指向 本 次 read( ) 操 作 以 后 的 位 置 上 。 
另 ， 方面 ， 当 前 的 预 读 上 下 文 继续 有 效 ， 所 以 将 file 结构 中 的 freada 标志 设 成 1。 

由 十 do_generic_file_readahead( ) 是 generic_file_read( ) 的 主体 , 至 此 我 们 可 以 认为 读 操 作 已 经 完成 。 

在 上 面 的 叙述 中 ， 我 们 此 过 了 预 读 函 数 generic file readahead( ) 的 细节 ， 这 个 函数 的 代码 也 在 
mm/filemap.c FP: 


[sys read( ) > generic file read( ) > do generic file read( ) > generic file readahead( )] 


892 static void generic file readahead(int reada ok, 


893 struct file * filp, struct inode * inode, 
894 struct page * pago) 
895 { 
896 unsigned long end index = inode->i_size >> PAGE CACHE SHIFT; 
897 unsigned long index = page->index; 
898 unsigned long max ahead, ahead; 
899 unsigned long raend; 
900 int max readahead = get_max_readahead (inode) ; 
901 
902 raend = filp->f_raend; 
903 max ahead = 0; 
904 
905 /* 
906 * The current page is locked. 
907 * lf the current position is inside the previous read IO request, do not 
908 * try to reread previously read ahead pages. 
909 * Otherwise decide or not to read ahead some pages synchronously. 
910 * If we are not going to read ahead, sct the read ahead context for this 
911 * page only. 
912 */ 
913 if (PageLocked(page)) | 
914 if (!filp->f_ralen || index >= raend || 
index + filp->f_rawin < raend) | 
915 raend = index; 
916 if (raend € end index) 
917 max ahead = filp->f_ramax; 
918 filp->f_rawin = Q; 
919 filp->f_ralen = 1; 
920 if (!max ahead) | 
921 filp-^f raend = index + filp->f_ralen; 
922 filp-^f rawin 1= filp->f_ralen; 
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/* 

* The current page is not locked. 

* If we were reading ahead and, 

* if the current max read ahead size is not zero and, 

* if the current position is inside the last read-ahead IO request, 

* it is the moment to try to read ahead asynchronously. 

* We will later force unplug device in order to force asynchronous read IO. 
*/ 

else if (reada ok && filp-^f ramax && raend >= 1 && 
index <= raend && index + filp-^f ralen >= raend) 1 
/* 
* Add ONE page to max ahead in order to try to have about the 
same [O0 max size 

* as synchronous read ahead (MAX READAHEAD + 1)*PAGE CACHE SIZE. 

* Compute the position of the last page we have tried to read in order to 
* begin to read ahead just at the next page. 


*/ 
raend -= 1; 
if (raend < end index) 
max ahead = filp->f_ramax + 1: 
if (max ahead) | 
filp-^f rawin = filp->f ralen; 
filp->f ralen - 0; 
reada ok = 2: 
} 
} 
/* 


* Try to read ahead pages. 
* We hope that ll rw blk( ) plug/unplug, coalescence, requests sort and the 
* scheduler, will work enough for us to avoid too bad actuals IO requests. 


*/ 


ahead = Q; 
while (ahead < max ahead) { 
ahead ++; 
if ((raend + ahead) >= end index) 
break; 
if (page cache read(filp, raend + ahead) « 0) 
break; 


/* 

* If we tried to read ahead some pages, 

* If we tried to read ahead asynchronously, 

* Try to force unplug of the device in order to start an asynchronous 
* read IO request. 
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970 * Update the read-ahead context. 

971 * Store the length of the current read-abead window. 
072 * Double the current max read ahead size. 

973 * That heuristic avoid to do some large IO for files that are not really 
974 * accessed sequentially. 

975 */ 

976 if (ahead) | 

977 if (reada ok == 2) { 

978 run task queue(&tq disk); 

979 ) 

980 

981 filp->f ralen += ahead; 

982 filp-^f rawin += filp->f ralen; 

983 filp->f_raend = raend + ahead + l; 

984 

985 filp-^f ramax += filp-^f ramax; 

986 

987 if (filp-^f ramax > max readahead) 

988 filp->f_ramax = max readahead; 

989 

990 /水 

991 * Move the pages that have already been passed 
992 * to the inactive list. 

993 */ 

994 drop behind(filp, index); 

995 

996 Hifdef PROFILE READAHEAD 

997 profile readahead((reada ok == 2), filp); 
998 #endif 

999 } 

1000 i 

1001 return; 
1002 } 


参数 reada ok 表示 月 标 页 面 page 古谷 在 原来 的 预 读 鹤 口 之 内 ， 这 是 在 do_generic_file_read( ) 开 头 
时 就 计算 好 了 的 。 

首先 要 根据 具体 情况 确定 个 合适 的 预 读 晤 max_ahead， 这 个 预 读 量 最 初时 假定 为 0， 然 后 根据 具 
体 情况 加 以 修正 。 怎 样 修正 呢 ? 主要 取决 于 当前 页 面 page 是 否 已 经 锁 上 ， 也 就 是 对 这 个 页 面 中 记录 块 
的 设备 层 读 入 请 求 是 否 已 经 发 出 。 如 果 已 经 发 出 ， 而 当前 页 面 又 在 先前 的 预 读 窗 口 之 内 ， 并 且 原 玉 的 巴 
读 窗 口中 已 经 包含 了 对 当前 负面 以 后 若 十 页 面 的 预 读 ， 堵 就 保持 max ahead 为 0， 最 后 无 功 和 而 返 。 这 种 

情况 下 generic_file_readahead( ) 只 是 作 了 一 个 简单 的 检测 而 并 不 是 真正 进行 逢 读 。 
如 果 当 前 页 面 虽然 已 经 被 锁 住 , 也 就 是 说 已 经 交付 设备 驱动 层 加 以 读 入 , 但 是 原来 并 没有 陡 读 Cile 
结构 中 的 fraen 为 0)， 或 者 当前 页 面 己 是 预 读 涂 口中 的 最 后 一 个 页 面 或 者 超出 了 预 读 窗口 的 上 党 
(index >=raend), 或 者 当前 页 面 在 预 读 窗口 的 下 沿 以 下 ， 那 就 说 明 要 男 起 一 个 预 读 窗口 了 人。 这 个 现 读 
窗口 的 大 小 首先 取决 于 file 结构 中 的 人 ramax, 这 最 初 症 在 do_generic_file_read( ) 中 的 for 循环 开始 之 前 
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Ej f raend 和 f_rawin 一 起 计算 好 了 的 ; 如 果 在 for 循环 中 已 经 调用 过 generic_file_readahead( ) 则 由 上 一 
次 调用 遗留 下 来 。 根 据 具体 情况 的 不 间 ， 这 个 数值 仍 有 可 能 为 0， 那 就 表示 不 要 预 读 。 不 过 ， 如 果 看 一 
下 do generic file read( ) 中 的 第 1050 一 1064 行 ， 就 可 以 发 现 一 般 情 况 下 这 个 数值 者 不 会 是 0。 

如 果 当 前 页 面 没有 被 锁 仕 ,设备 驱动 层 的 读 入 请 求 尚未 发 出 呢 ? 与 前 -种 情况 正好 相反 。 在 前 一 种 
情况 中 ， 是 在 如 果 原 来 没有 预 读 窗 口 ， 或 者 当前 负面 沙 在 原 有 窗口 之 外 时 才 预 读 。 而 击 在 则 是 如 果 原 来 
A TU BO Cread_ok JE 0)， 并 且 当 前 页 面 落 在 原 有 窗口 之 内 时 才 预 该 ( 见 934 行 和 835 行 )。 此 时 的 
顶 谈 星 max_ahead 也 来 自 file 结构 中 的 f_ramax， 但 是 要 增加 一 个 页 面 ， 因 为 对 当前 页 面 的 读 入 也 作为 
“ 预 谈 ” 处 理 了 。 如 果 比 较 一 下 在 两 种 情况 下 对 filp->f_ralen 的 初始 化 ， 就 可 以 看 到 在 前 一 种 情况 下 将 
其 设置 成 1， 因 为 对 当前 页 面 的 读 入 已 经 在 进行 中 ， 而 在 后 一 种 情况 下 则 将 其 设置 成 0， 因 为 对 当前 页 
面 的 谈 入 尚未 升 始 。 此 外 ， 在 949 行 还 将 reada ok 设置 成 2?， 表 示 此 时 的 预 读 为 “异步 预 读 ”。 其 区 别 
在 后 面 会 看 到 。 

确定 了 合适 的 预 读 量 以 后 ， 就 开始 通过 一 个 while 循环 依次 局 动 对 各 个 页 面 的 读 入 。 函 数 
page cache read( ) 的 代码 在 同 文件 filemap.c 中 : 





[sys_read( ) > generic file read( ) > do_generic_file_read( ) > generic. file readahead( ) > 
page_cache_read( )] 


545 /* 

546 * This adds the requested page to the page cache if it isn’t already there, 
547 * and schedules an 1/0 to read in its contents from disk. 

548 */ 


549 static inline int page cache read(struci file * file, unsigned long offset) 
590 { 


551 struct inode *inode = file->f_dentry->d_inode; 

552 struct address space *mapping = inode-^i mapping; 
553 struct page **hash = page hash(mapping, offset); 

554 struct page *page; 

555 

556 spin lock(&pagecache lock); 

557 page = find page_nolock (mapping, offset, *hash); 
558 spin unlock(&pagecache lock): 

559 if (page) 

560 return 0; 

561 

562 page = page cache alloc( ); 

563 if (!page) 

564 return -ENOMEM; 

565 

566 if (ladd to page cache unique(page, mapping, offset, hash)) { 
567 int error - mapping->a_ops~>readpage (file, page); 
568 page_cache_release (page) ; 

569 return error; 

570 j 

571 /* 

512 * We arrive here in the unlikely event that someone 
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573 * raced with us and added our page to the cache first. 
574 */ 

575 page cache_free (page) ; 

576 return 0; 

577. } 


读者 对 这 段 代 码 已 经 不 会 感到 隧 后 了， 具体 的 谈 入 由 mapping->a_ops->readpage( ) 启 动 。 对 十 Ext2 
文件 系统 这 就 是 ext2_readpage( )， 读 者 已经 在 前 面 看 过 它 的 代码 了 。 这 里 要 指出 的 臣 ， 如 术 
__find_page_nolock( ) 找 到 了 所 需 的 页 面 就 直接 返回 0 而 跳 过 了 对 页 面 的 读 入 ， 但 是 在 上 和 面 的 while f& 
环 中 却 还 是 将 其 看 成 经 进行 了 预 读 。 当 然 ， 这 么 一 来 这 个 已 经 缓冲 的 页 面 中 能 与 设备 上 个 BE, dH 
是 也 没有 什么 关系 ， 因 为 当 读 这 个 页 而 时 如 果 发 岗 仿 不 一 致 就 会 在 do_generic_file_read( ) 中 转 入 
page_not_up_to_date 处 加 以 处 理 。 

只 要 不 在 中 途 到 达 了 文件 的 终点 Cend_index 为 最 后 -个 逻辑 记录 块 的 序 写 ) ，while WARE T 
完成 了 由 max. ahead 决定 的 预 读 量 才 会 结束 。 注 意 ， 仕 ext2_readpage( ) 中 只 是 通 过 也 rw_block( ) ili 
了 对 各 个 记录 上 快 的 读 入 请 求 ， 而 真正 的 谈 入 是 通过 DMA 进行 的 ， 当 前 进程 并 不 停 下 求 等 竺 其 完成 。 
从 这 个 角度 讲 ， 所 有 的 磁盘 读 / 写 其 实 都 是 “异步 ”的 ， 而 预 读 之 所 以 分 为 “同步 ”和 “有 弄 步 ”， 县 
区 别 在 于 第 978 行 对 ron_task_queue( ) 的 调用 ， 即 抽出 时 间 做 点 别 的 什么 ， 我 们 在 “设备 驱动 ”一 章 中 
还 会 回 钊 这 个 话题 。 此 外 ， 除 对 预 读 窗口 的 更 新 外 ， 还 将 file 结构 中 的 最 大 了 预 读 量 f ramax Alia CR. 
985 行 ) ， 只 是 这 个 数值 不 能 超过 由 get max_readahead( ) 取 得 的 对 于 文件 所 在 设备 的 最 大 预 读 量 
max_readahead。 所 以 ， 在 同一 个 预 读 上 下 文中 ， 随 郑 预 读 次 数 的 增加 ， 预 读 量 通常 会 愈 来 剑 大 ， 有 痛 全 
3:5] max_readahead。 然后， 每 当 预 污 上 上 下文 改变 时 ,也 就 是 通过 Iseek( ) 将 当前 位 置 改 慨 到 当前 预 读 窗 
中 之 外 以 后 的 第 一 次 读 操作 时 ， 就 会 重新 开始 个 新 的 上 下 文 而 又 开始 积累 最 大 孩 谈 量 。 

至 于 profile_readahead( )， 那 只 是 用 于 统计 信息 的 收集 ， 此 处 我 们 就 对 之 不 感 兴趣 o 


5.7 其 他 文件 操作 


系统 调用 open( )、close( ) 和 write( ) 无 疑 是 最 基本 、 最 重要 、 而 且 也 最 复杂 的 文件 操作 。 除 此 以 外 ， 
还 有 许多 用 于 文件 操作 或 与 文件 操作 有 关 的 系统 调用 。 尽 管 这 些 系 统 调用 相 比 之 下 只 是 辅 幼 性 的 ， 代 
是 在 不 同 的 应 用 中 分 别 起 着 很 重要 的 作用 ， 限 于 本 书 的 篇 幅 ， 我 们 个 可 能 对 所 有 这 些 系 统 调用 都 一 
列举 并 加 以 介绍 。 读 者 可 以 在 第 3 章 的 系统 调用 函数 跳 续 表 中 找到 与 所 有 这 些 系 统 调用 对 应 的 内 核 消 
数 ， 对 丁 这 些 (未 必 是 个 部 ) 系统 调用 的 作用 与 运用 可 以 参考 关于 Unix/Linux 程序 设计 的 专营 。 全 于 
网 现 这 些 系统 调用 的 代码 ， 则 大 多 数 要 由 读者 自己 下 功夫 去 阅读 了 。 我 们 在 这 里 选择 其 要 埋 介 绍 几 个 
系统 调用 的 实现 。 

先 看 lseek( )， 这 个 系统 调用 的 功能 和 实现 虽然 简单 但 却 很 重要。 内 核 中 实现 这 个 系统 调 几 的 畏 数 
是 sys_lseek( )， 其 代码 在 fs/read_write.c F: 





64 asmlinkage off t sys lseek(unsigned int fd, off t offset, 
unsigned int origin) 


65 { 
66 off t retval; 
67 struct file * file; 
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68 

69 retval —EBADF; 

70 file = fget (fd): 

11 if (lfile) 

12 goto bad; 

73 retval = -EINVAL; 

74 if (origin <= 2) { 

75 loff t res ~ llseek(file, offset, origin); 
76 retval - res; 

77 if (res != (loff t)retval) 

78 retval = —EOVERFLOW;/* LFS: should only happen on 32 bit platforms */ 
79 } 

80 fput (file); 

8l bad: 

82 return retval; 

83  ] 


参数 origin 的 值 只 能 是 0. 1 0X 2, KIR offset Wt, Agir PAGE AEA. KBR 
的 第 76 行 和 第 77 行 可 能 会 给 读者 带 来 “: 些 困惑 ， 既 然 把 res 的 值 赋 给 retval， 怎 么 二 者 又 可 能 不 相等 
We? 这 是 因为 二 者 的 兴 型 不 同 。 变量 res 的 类 型 为 lofft, 实际 上 是 64 位 整数 ; 而 retval 的 类 型 为 off_1， 
是 32 位 整数 。 有 关 的 定义 见 include/linux/types.h: 


18 typedef kernel off 1 olf ES 
4b typedef . kernel loff t loff t: 

数据 类 起 Kernel_off t 和 __kernel_loff t 定义 则 见 include/asm_i386/posix_types.h: 
14 typedef long __kernel_off t; 


36 typedef long long kernel loff t; 


将 64 位 的 数 依 赋 给 32 位 的 变量 , 然后 检查 二 者 是 否 相 等 ， 实际 上 就 是 检 查 这 个 32 位 数值 是 否 溢 
出。 所 以 ， 系 统 调 用 lseck( d 32 位 系统 结 愧 中 只 适用 十 文件 大 小 个 超过 AGB 的 文件 系统 。 为 了 突破 
这 个 限制 ，Linux 另外 提供 了 一 个 系统 调用 liseek( )， 使 得 在 32 位 系统 结构 中 也 可 以 处 理 大 于 AGB 的 
文件 ， 其 代码 就 在 同文 件 中 ， 我 们 号 不 看 了 。 不 过 ， 二 者 的 主体 都 是 seek( ). PAL llseek( ) 的 代码 
也 在 同 一 文件 fs/read write.c "P: 


[sys_Iseek( ) > llseek( )] 


50 static inline loff t llseek(struct file *file, loff_t offset, int origin) 
51 { 

52 loff t (#fn) (struct file *, loff t, int); 

53 loff t retval; 

54 

55 fn = default llseck; 
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56 if (file>f_op && file->f op->11seek) 
57 fn = file->f_op->!]1seek; 

58 lock kernel ( ); 

59 retval = fn(file, offset, origin); 

60 unlock kernel ( ); 

61 return retval; 

62 } 


注意 ， 这 个 函数 返回 值 的 类 型 是 64 位 的 loff t+， 参 数 offset 的 类 型 也 是 loff t. 

具体 的 文件 系统 可 以 通过 file operations 结构 中 的 冰 数 指针 llseek 提供 相应 的 函数 ， 以 实现 这 个 操 
作 ， 如 果 不 提供 就 等 于 默认 采用 defanlt Hlseek( )。 就 Ext2 MHA Ss, ChB M XE 
ext2_file_lseek( )， 其 代码 在 fs/ext2/file.c F: 


[sys_lseek( ) > llseek( ) > ext2_file_lseekt )] 


39 /* 

40 * Make sure the offset never goes beyond the 32-bit mark.. 
41 */ 

42 static loff t ext2 file lseek( 

43 struct file *file, 

44 loff t offset, 

45 int origin) 

46 d 

47 struct inode *inode = file->f_dentry->d_inode; 
48 

49 switch (origin) { 

50 case 2: 

51 offset += inode->i_size; 

52 break; 

53 case 1: 

54 offset += file->f_pos: 

55 } 

56 if (offset<0) 

57 return -EINVAL; 

58 if (((unsigned long long) offset >> 32) != 0) { 
59 if (offset > ext2_max_sizes[EXT2_BLOCK_SIZE_BITS (inode->i sb)]) 
60 return —EINVAL; 

6l j 

62 if (offset !- file-^f pos) { 

63 file->f pos = offset; 

64 file->f_reada = 0; 

65 file->f_version = ++tevent; 

66 } 

67 return offset; 

68 } 


作为 参数 传递 下 来 的 offset 可 以 是 负 值 ， 但 根据 起 始点 origion 加 以 换算 以 后 就 不 容许 负 值 了 。 代 
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ASH RISE 58. 59 行 也 是 对 offset 取 值 范围 的 人 检查。 位 移 offset 可 以 超过 义 件 的 当前 大 小 ， 但 是 不 能 超 
过 文件 大 小 的 上 限 。 这 个 上 限 来 月 两 个 方面 ， 其 一 是 不 能 超过 32 位 整数 的 容量 ， 这 就 是 第 58 行 所 检 
查 的 有 晶 标 ， 其 二 是 不 能 超过 前 - 节 中 所 讲 Ex 文件 系统 中 记录 块 映 射 机 制 的 总 容量 。 数 组 
ext2 max, sizes| ] 及 有 关 的 定义 都 在 fs/ext2/file.c P: 


28 #define EXT2 MAX SIZE (bits) x 

29 (((EXT2 NDIR BLOCKS * (ILL «€ (bits - 2)) + \ 

30 (ILL << (bits: 2)) * (ILL << (bits - 2)) + \ 

31 (ILL «€ (bits - 2) * (ILL << (bits - 2)) * (ILL <<(bits - 2))) * \ 
32 (ILL << bits)) - 1) 

33 

34 static long long ext2 max sizes[ ] = { 

35 0, 0, 0, 0, 0, 0, 0, 0, 0, Q, 

36 EXT2 MAX SIZE(10), EXT2 MAX SIZE(11), EXT2 MAX SIZE(12), 


EXT2 MAX SIZE(13) 
37 ki 


Ext2 记录 块 映射 机 制 的 总 容量 取决 于 记录 块 大 小 。 当 记录 块 大 小 为 1K SS, M2 时 ， 这 个 总 容 
量 的 大 小 为 EXT2_MAX_SIZE(10)， 由 直接 、 间 址 、.: 重 间 址 和 三 重 间 址 四 个 部 分 相 加 市 得 。 

除 将 file 结构 中 的 fpos 设置 成 offset 的 值 以 外 ， 还 将 这 结构 中 的 f_reada 设置 成 0， 因为 既然 当前 
位 置 变 了 ， 原 米 的 “ 预 读 ” 上 下 文 就 废弃 了 ， 到 下 一 次 读 文件 时 自 会 建立 起 新 的 预 读 上 下 文 。 此 外 ， 
event 是 系统 中 的 一 个 全 局 量 ，file 结构 中 的 f_version 字段 就 以 event 的 当前 信和 作 为 文件 读 写 上 下 文 的 
“版 本 与 ”。 

如 盯 孤 立地 看 ext2_file_lseek( ) 的 代码 ， 邦 么 似乎 就 这 么 一 些 了 。 可 起 ， 如 果 把 它 与 写 文 件 操作 的 
代码 结合 起 来 看 ， 里 面 还 隐 活 着 Iseek( ) 的 一 个 重 柴 性 质 ， 玉 就 是 可 以 在 文件 中 创造 出 “空洞 "。 原 因 
在 于 对 offset 的 检验 只 限于 文件 大 小 的 上 限 ， 而 并 不 受 文件 当前 大 小 的 限制 。 举 例 来 说 ， 假 设 文 件 的 
当前 大 小 是 1KB， 而 通过 lseek( ) 把 “当前 位 置 ” 移 到 9KB 的 位 置 上 ， 然 后 往 文件 中 写 1 个 字 节 ， 这 
么 来， 文件 的 大 小 变 成 了 9KB 加 1 个 字 节 ， 而 其 中 的 SK 字 节 实际 上 并 没有 物理 记录 块 ， 因 此 成 了 
空洞 。 空 洞 内 的 轩 辑 记录 块 要 到 往 里 写 的 时 候 才 会 填 上 ， 也 就 是 为 之 分 配 物 地 记录 块 ， 在 此 之 前 若 从 
衬 润 中 读 则 为 全 0。 有 些 应 用 软件 的 程序 设计 利用 了 Iseek( ) 的 这 个 性质 。 不 过 应 指出 ， 应 用 软件 不 能 


记录 块 ， 能 省 分 配 到 记录 块 要 视 当 时 设备 上 是 否 尚 有 空闲 记录 上 块 而 定 。 

在 本 节 中 要 看 的 第 一 个 系统 调用 是 dup) 用 米 “ 复 制 ” 一 个 打开 文件 号 ,使 新 的 打开 文件 号 也 代 
表 原 已 存在 的 文件 操作 上 下 文 。 这 个 系统 调用 虽然 简单 ， 但 是 却 在 Unix/Linux 系统 的 运行 中 扮演 着 很 
车 此 的 角色 。 在 内 核 里 I 和， 这 个 系统 调用 是 由 sys dup KME, HARIST fs/fentl.c H: 


187 asmlinkage long sys_dup (unsigned int fildes) 


188 { 

189 int ret = -EBADF; 

190 struct file * file = fget(fildes); 
191 

192 if (file) 

193 ret = dupfd(file, 0); 
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194 return ret; 
195} 


参数 fildes 为 需要 “复制 ”的 打开 文件 号 ， 操 作 的 主体 为 dupfd( )， 其 代码 中 在 同一 文件 中 : 
[sys dup( ) > dupfd( )] 


116 static int dupfd(struct file *file, int start) 


117 { 

118 struct files struct * files - current->files; 
119 int ret; 

120 

121 ret - locate fd(files, file, start); 
122 if (ret < 0) 

123 goto out putf; 

124 allocate fd(files, file, ret); 

125 return ret; 

126 

127 out_putf: 

128 write unlock (&files—>file lock) ; 

129 fput (file); 

130 return rct; 

131 ) 


系统 调用 dup( ) 的 日 的 是 在 当前 进程 的 fihles_struct 结构 内 的 数组 中 将 一 个 己 打 开 文件 的 file 结构 指 
针 复 制 到 另 一 个 原来 空闲 的 位 置 上 ， 使 这 个 新 的 “已 打开 文件 ”也 指向 同一 个 file 结构 。 这 里 的 参数 
start 表示 从 数组 中 的 什么 位 置 〈 下 标 ) 开始 寻找 空 困 的 数组 元 素 。 从 sys dup ) 的 代码 中 可 以 看 到 传 下 
来 的 实际 参数 值 是 0。 所 以 inline 函数 locate_fd( ) 从 打开 文件 号 0 所 对 应 的 元 素 开始 寻找 ， 必 要 时 还 可 
UP FRNA. Xx ERAI CATA SIX, IX BEUCTGERTI. TRE SBT 
件 号 以 后 ， 就 通过 allocate fd( ) 将 作为 参数 传 下 来 的 file 结构 指针 “安装 ”在 这 个 打开 文件 号 所 对 应 的 
位 置 上 ， 其 代码 也 在 同一 个 文件 fentlc H: 


[sys dup( ) > dupfd( ) > allocate fd( )] 


107 static inline void allocate fd(struct files struct *files, 


108 struct file *file, int fd) 
109 { 

110 FD SET (fd, files—>open_fds) ; 

111 FD CLR(fd, files-^close on exec); 

112 write unlock(&files-^file lock); 

113 fd install(fd, file); 

114 } 


TT fd_install( ) 的 代码 ， 读 者 已 在 sys_open( HPT. RIERA, RET CAS 
也 就 代表 着 原来 由 sys_dup( ) 中 的 fildes 所 代表 的 滥 个 文件 了 。 
看 似 简单 的 这 么 一 个 操作 ， 却 起 着 十 分 重要 的 作用 ，Unix/Linux 各 种 shell 的 重 定 由 机 制 就 是 建立 
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在 这 个 系统 调用 的 基础 上 的 。 我 们 通过 实例 来 看 看 这 具体 是 怎样 实现 的 。 先 看 这 么 一 条 shell AA: 
“echo what is dup?”。 这 条 命令 要 求 shell 进程 执行 一 个 可 执行 文件 echo， 参 数 为 “what is dup?”. 1: 
收 到 这 条 命令 ，shell 进程 先 找到 串 执 行文 件 bin/echo， 然 后 fork( ) 出 一 个 子 进程 让 它 执 行 bin/echo， 并 
将 参数 传递 给 它 ， 这 个 子 进程 从 shell 继承 了 标准 输入 、 标 准 输出 以 及 标准 出 错 信 上 息 三 个 通道 ， 即 打开 
文件 号 为 0、1、2 的 三 个 已 打开 文件 。 至 十 这 个 可 执行 文件 本 身 所 规定 的 操作 则 是 很 简单 的 ， 就 是 把 
BAC what is dup? "所 到 标准 输出 文件 , 通常 就 是 显示 屏 上 。 现 在 把 命令 行 改 成 <echo what is dup? > foo”, 
要 求 在 执行 时 将 输出 “ 重 定 判 ” 到 一 个 磁盘 文件 foo 中 去 。 对 此 ，shell 进程 大 体 上 将 执行 以 下 的 操作 
序列 ， 我 们 假定 在 此 之 前 该 shell 进程 只 有 三 个 已 打开 文件 ， 即 打开 文件 号 为 0、1、2 的 三 个 标准 输入 
/ 输出 文件 : 

(D HARER foo FRA foo 中 原 有 的 内 容 ， 其 打开 文件 号 为 3。 

(D 33d dup() 复 制 已 打开 文件 stdout, 也 就 是 将 打开 文件 号 为 1 处 的 file 结构 指针 复制 到 打开 

文件 号 为 4 处， 目的 是 将 stdout 的 file 指针 暂时 保存 -一 下 。 

(3) 关闭 stdout， 即 1 号 已 打开 文件 ， 由 杆 它 的 file 结构 指针 山 经 被 复制 到 打开 文件 号 为 4 Hb, 

这 个 文件 《显示 屏 ) 实际 上 并 没有 最 终 地 关闭 ， 只 是 把 stdout 的 位 置 腾 了 出 来 。 

(4) 通过 dup( )， 复 制 3 号 已 打开 文件 ， 由 于 已 打开 文件 1 号 的 位 置 已 经 空闲 ， 所 以 stdout 位 
置 上 的 file 结构 指针 也 就 指向 了 磁盘 文件 foo. 

(5) 通过 系统 调用 fork( ) 和 exec( ) 创 建 了 进程 并 让 子 进程 执行 echo, 子 进程 在 执行 echo 前 夕 将 
已 打开 文件 3 号 和 4 号 关闭 而 只 剩 下 0、1、2 三 个 已 打开 文件 ， 但 是 ， 此 时 的 stdout, 即 1 
号 已 打开 文件 实际 上 已 指向 磁盘 文件 foo 而 不 是 显示 屏 ， 所 以 当 echo 将 输出 往 stdout 写 时 
BLES RE T Xt foo. 

(6) 至 于 shell 进程 本 身 ， 则 关闭 指向 foo 1 9413 号 已 打开 文件 ， 并 且 通 过 系统 调用 dup( ) 
和 close( ) 将 原来 指 癌 显示 屏 的 file 结构 指针 恢复 到 stdout 位 置 上 , 这 样 shell 进程 就 恢复 了 
开始 时 的 三 个 标准 已 打开 文件 。 

由 此 可 见 ， 可 执行 程序 echo 其 实 并 不 知道 它 的 标准 输出 文件 stdout 实际 上 通 向 何方 ， 进 程 与 实际 
输出 义 件 (设备 ) 的 结合 是 在 运行 时 由 其 父 进 种 “包办 ”的 。 

对 于 stdin 和 stderr 也 是 同样 。 这样 就 简化 了 对 echo 的 程序 设计 。 因 为 在 程序 设计 时 只 要 跟 三 个 凶 
缉 上 存在 的 文件 打交道 就 可 以 了 。 熟 悉 “ 面 向 对 象 程序 设计 ”的 读者 大 概 会 联想 到 “多 态 (polymorphism)” 
和 “ 午 载 (overload)” 这 些 概念 ， 从 而 觉得 这 似乎 也 没有 什么 特别 高 明之 处 ， 但 是 请 注意 ， 这 个 机 制 的 
设计 与 实现 是 在 30 年 以 前 ! 

在 dup( ) 的 基础 上 上 ， 后 来 又 增设 了 个 系统 调用 dup2( )， 意 为 “dup to”， 不 同 之 处 在 于 这 个 系统 
调用 多 一 个 参数 ， 即 作为 目标 的 打开 文件 号 ， 也 就 是 说， 将 一 个 已 打开 文件 复制 到 指定 的 位 置 上 。 





冉 来 看 系统 调用 ioctl( )， 这 个 系统 调用 通过 -… 个 参数 米 半 接 地 给 出 具体 的 操作 命令 ， 所 以 可 以 认 
为 是 对 常规 系统 凋 用 界面 的 扩充 。 其 作用 就 好 像 是 “补遗 ”或 “其 他 ” 凡是 操作 比较 细小 ， 不 适合 为 
之 专门 设置 一 个 系统 调用 或 用 去 一 个 系统 调用 号 的 ， 就 可 以 归 入 这 个 系统 调用 。 不 仅 如 此 ， 在 升 发 基 
T Linux 内 核 的 应 川 而 需要 对 内 核 加 以 扩充 (通常 是 对 特殊 设备 的 豫 动 ) 时 ,也 常常 通过 增设 新 的 ioctl( ) 
操作 命令 的 办 法 来 实现 。 特 别 是 当 这 些 扩充 不 能 很 自然 地 落 入 打开、 关闭 、 恋 、 写 这 些 标准 的 文件 操 
EFM, oct ) 更 是 扮演 着 重要 的 角色 。 内 核 中 实现 ioctl( ) 的 是 sys_ioctl( )， 其 代码 在 fs/ioctl.c 中 : 


48 asmlinkage long sys_ioctl (unsigned int fd, unsigned int cmd, unsigned long arg) 
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50 
51 
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struct file * filp; 
unsigned int flag; 
int on, error - -EBADF; 


filp = fget(fd) ; 
if (!filp) 


goto out; 


error = 0; 
lock kernel( ); 
switch (cmd) ( 


&ifdef 


Hendif 
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case FIOCLEX: 
set_close_on_exec(fd, 1); 
break; 


case FIONCLEX: 
set close on exec(fd, 0); 
break; 


case FIONBIO: 
if ((error = get user(on, (int *)arg)) !- 0) 
break; 
flag = 0 NONBLOCK ; 
/* SunOS compatibility item. */ 
if (0 NONBLOCK != O NDELAY) 
flag |= O NDELAY; 


if (on) 

filp->f flags |= flag: 
else 

filp—-f flags & “flag: 
break; 


case FIOASYNC: 
if ((error = get user(on, (int *)arg)) != 0) 
break; 
flag = on ? FASYNC : 0; 


/* Did FASYNC state change ? */ 

if ((flag ^ filp->f flags) & FASYNC) { 
if (filp->f op && filp->f_op->fasync) 

error = filp—f op-^fasync(fd, filp, on): 

else error = -ENOTTY; 

} 

if (error != 0) 
break; 
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97 if (on) 

98 filp-^f flags |= FASYNC; 

99 else 

100 filp-^f flags &= ~FASYNC; 

101 break; 

102 

103 default: 

104 error = -ENOTTY; 

105 if (S_ISREG(filp->f_dentry->d_inode->i_mode) ) 
106 error = file ioctl(filp, cmd, arg): 

107 else if (filp-^f op && filp->f_op— ioctl) 

108 error = filp-^f op-^ioctl(filp-^f dentry-^d inode, filp, cmd, arg); 
109 } 

110 unlock kernel( ): 

111 fput (filp); 

112 

113 out: 

114 return error; 

115 } 


参数 fd 为 日 标 文件 的 打开 文件 号 ，cmd 则 为 具体 的 操作 命令 代码 。 另 一 个 参数 arg 可 以 用 作对 具 
体操 作 命令 的 参数 ， 初 看 之 下 似乎 只 能 传递 一 个 整 型 参数 对 于 很 多 操作 是 不 够 的 ， 因 而 限制 了 ioctl ) 
对 内 核 文件 /设备 操作 的 扩充 能 力 。 其 实 不 然 ， 在 需 半 使 用 更 多 参数 时 可 以 把 这 些 参 数 “ 封 装 ” 在 一 个 
数据 结构 中 ， 然 后 把 arg 用 作 指 向 该 数据 结构 的 指针 ， 所 以 ， 实 际 上 传递 参数 的 能 力 几乎 是 不 受 限 制 
的 。 

在 include/linux/ioctl.h 中 定义 了 些 命 令 代码 。 这 些 代码 的 数值 大 致 上 是 从 0x5401~0x545F, tE 
器 是 说 只 使 用 了 两 个 低 字 节 ， 并 晶 其 中 较 高 的 字 节 者 是 0x54， 正 好 是 字符 “T” 的 ASCII 代码 。 由 于 参 
数 cmd 的 类 型 是 32 位 无 符号 整数 ， 其 扩充 空间 是 相当 大 的 。 

但 是 ， 从 为 -个 角度 看 ， 由 十 不 辐 的 人 在 不 同 的 应 用 中 都 有 可 能 要 通过 ioctl( P TE PE. sif 
证 命令 代码 的 惟一 性 而 同时 又 遵循 一 种 统 - 的 格式 就 成 为 一 个 问题 ， 为 了 这 个 目的 ，GNU 建议 将 32 
位 的 命令 代码 cmd 划分 成 四 个 位 段 〈 如 图 5.8 所 示 )。 





模式 参数 的 数据 结构 大 小 类 型 编号 


5.8 ioctl 命令 代码 的 分 段 组 成 


对 这 些 位 段 的 定义 与 操作 ， 在 include/asm i386/Aoctl.h 中 给 出 了 一 些 定义 ; 


9 /* ioctl command encoding: 32 bits total, command in lower 16 bits, 


10 * size of the parameter structure in the lower 14 bits of the 

11 * upper 16 bits. 

12 * Encoding the size of the parameter structure in the ioctl request 
13 * is useful for catching programs compiled with old versions 
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* and to avoid overwriting user space outside the user buffer area. 
* The highest 2 bits are reserved for indicating the ^ access mode '. 
* NOTE: This limits the max parameter size to 16kB -i ! 


*/ 


* The following is for compatibility across the various Linux 

* platforms. The i386 ioctl numbering scheme doesn’ t really enforce 
* a type field. De facto, however, the top 8 bits of the lower 16 

* bits are indeed used as a type field, so we might just as well make 
* this explicit here. Please be sure to use the decoding macros 

* below from now on. 

*/ 
#define TOC NRBITS 8 
#define TOC TYPEBITS 8 

tdefine _IOC SIZEBITS 14 
#define  IOC DIRBITS 2 


Hdefine  10C NRMASK ((1 << TOC NRBITS)-1) 
Hdefine IOC TYPEMASK — ((1 << TOC TYPEBLTS)~-1) 
Sdefine IOC SIZEMASK ((1 << _IOC SIZEBI1TS) -1) 
&define IOC DIRMASK ((1 «« IOC DIRBITS)-1) 


define _IOC NRSHIFT 0 

define _IOC_TYPESHIFT ( TOC NRSHIFT* TOC NRBITS) 
Sdefine IOC STZESHIFT ( IOC TYPESHIFT* IOC TYPEBITS) 
Hdefine 10C DIRSHIFT —( IOC SIZESHIFT« IOC SIZEBITS) 


/* 

* Direction bits. 

*/ 

Sdefine _IOC_ NONE OU 
Hdefine IOC WRITE 1U 
define IOC READ 2U 


Hdefine  IOC(dir, type, nr, size) \ 
(((dir) << IOC DIRSHIET) | \ 
((type) << _IOC TYPESHIFT) 
((nr) «€ 10C NRSHIFT) | 
((size) << _LOC_SIZESHIFT) ) 


= 
x 


/* used to create numbers */ 
Hdefine _10(1ype, nr) . I0C( 10€ NONE, (type), (nr), 0) 
Hdefine  lOR(Lype, nr, size) .TOC( 10€ READ, (type), (nr), sizeof (size)) 
define LOW(type, nr, size) _TOC( IOC WRITE, (type), (nr), sizeof (size)) 
tdefine lOWR(Lype,nr,size) \ 

IOC( {OC_READ! IOC. WRITE, (type), (nr), sizeof (size) ) 
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例如 ,Linux 内 核 中 有 对 网 上 电话 的 支持 ,在 网 上 电话 的 驱动 程序 中 需要 有 个 控制 收听 音量 的 手段 。 
显然 ， 常 规 的 文件 操作 如 read( )、write( )、lseek( ) 等 都 不 适用 于 这 个 量 的 ， 所 以 就 通过 扩充 ioctl ) 的 
方法 来 实现 这 项 控制 ， 为 此 口 的 需要 定义 -一 个 命令 代 个 。 这 个 代码 的 定义 在 include/linux/telephony.h 
让， 我 们 用 它 作为 “个 实例 (但 是 我 们 侍 本 书 中 对 网 上 电话 的 实现 本 寺 不 感 兴趣 ): 


define PHONE PLAY VOLUME —_TOW( 'q' , 0x94, int) 


读者 可 以 根据 上 面 关 十 _IOW 和 各 个 位 段 的 定义 得 到 命令 码 PHONE_PLAY_VOLUME 的 数值 为 Ox 
40045194。 要 保 让 命令 码 的 惟一 性 ， 就 得 保证 类 型 位 段 或 者 类 型 加 编写 位 段 取 值 的 惟一 性 。 a 
FARI Linux 源 代码 中 有 个 文件 Documentation/ioctl numbertxt, Hil Wht PAAR DA, 
面 还 有 个 清单 ， 说 明 类 型 位 段 的 哪 一 些 数值 已 经 在 使 用 ， 以 及 对 于 给 定 的 类 型 位 段 数 值 哪 一 nets 
经 在 使 用 。 和 需要 通过 扩充 ioctl( ) 米 实现 某 些 设备 驱动 的 读者 应 参 疯 这 个 文件 。 

+ sys_iocth ) 的 代码 本 身 ， 读 者 应 该 没有 困难 。 在 switch 诸 铝 内 的 岂 种 命令 码 ， 即 FIOCLEX、 
FIONCLEX、FIONBIO 和 FIOASYNC, 部 与 其 体 文件 系统 无 关 , 只 是 VES 层 上 的 操作 。 其 中 FIOCLEX 
将 当前 进程 的 files_sturct 结构 中 的 位 图 close. on. exec 内 与 fd 相对 应 的 标志 位 设 成 1， 使 得 如 果 当 前 进 
程 通过 系统 调用 exec( ) 执 行 一 个 新 的 可 执行 程序 时 就 将 这 个 山 打 关 文件 白 动 关闭 , 而 FIONCLEX 则 与 
之 相反 。FIONBIO 把 对 十 给 定 已 打开 文件 的 操作 设 冯 成 “ 阳 塞 ”或 “不 阻 寨 ”(blocking/non_blocking ) 
模式 。 至 于 FIOASYNC， 则 将 对 此 文件 的 操作 设置 成 “同步 ”成 “异步 ”模式 。 通 常 对 已 打开 文件 的 
操作 都 号 同 步 和 阻塞 的 ， 关 十 不 阻塞 模式 和 异步 模式 可 参看 下 古 进 程 问 通 信 中 对 “插口 ”的 操作 以 及 
设备 驱动 中 的 有 关内 容 。 

除 这 几 种 命令 码 以 外 ， 对 常规 文件 的 操作 还 此 由 通用 的 file ioctd( ) 再 加 -一 层 “过 滤 ”"， 而 对 设备 文 
件 或 其 他 文件 〈 如 FIFO， 的 处 理 则 直接 由 具体 的 file operations 结构 通过 函数 指针 ioctl 184b. A% 
file_ioctl( ) 的 代码 在 fs/ioctl.c 中 : 


[sys_ioctl( ) > fle_ioctl( )] 


13 static int file ioctl(struct file *filp, unsigned int cmd, unsigned long arg) 
14 { 

15 int error; 

16 int block; 

17 struct inode * inode = filp-^f dentry-^d inode; 

18 

19 switch (cmd) { 

20 case FIBMAP: 

21 { 

22 struct address space *mapping = inode-^i mapping; 
23 int res; 

24 /* do we support this mess? */ 

25 if (Imapping-^a ops-^bmap) 

26 return —-EINVAL; 

27 if (!capable (CAP_SYS RAWIO)) 

28 return —EPERM; 

29 if ((error - get_user(block, (int *) arg)) != 0) 
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30 return error; 

31 

32 res = mapping >a ops->bmap (mapping, block); 

33 return put_user(res, (int *) arg); 

34 } 

35 case FIGETBSZ: 

36 if (inode->i sb == NULL) 

37 return —EBADF; 

38 return put user (inode->i_sb->s_blocksize, (int *) arg); 
39 case FIONREAD: 

40 return put user(inode-^i size - filp->f pos, (int *) arg); 
41 } 

42 if (filp->f op && filp-^f op->ioct]) 

43 return filp->f op-^ioctl(inode, filp, cmd, arg); 

44 return -ENOTTY; 

45  ] 


操作 命令 FIBMAP 返回 文件 中 给 定 逻 辑 块 号 所 对 应 的 物理 块 号 ; FIGETBSZ 返回 文件 所 在 设备 的 
记录 块 大 小 ，FIONREAD 则 返回 文件 中 从 当前 读 / 写 位 置 到 文件 末尾 的 距离 。 

除 这 三 种 命令 以 外 ， 就 与 对 设备 文件 一 样 ， 完 全 取决 十 具体 的 文件 系统 ， 豆 接 由 具体 的 
file operations. 结构 中 的 函数 指针 ioct] 提供 。 我 们 以 前 讲 过 ， 每 个 具体 的 文件 系统 都 有 人 至少 一 个 
file operations 数据 结构 。 但 是 ， 反 过 来 ， 每 个 fle_operations 数据 结构 却 林 必 都 对 应 着 一 个 不 同 的 文 
件 系统 ， 这 里 并 不 是 一 对 一 的 关系 。 例 如 ，Ext2 文件 系统 就 有 两 个 这 样 的 数据 结构 ， 一 个 是 
ext2_file_operations， 另 一 个 是 ext2_dir_operations， 分 别 用 于 常规 文 件 和 目录 。 以 后 读者 偿 会 看 到 ， 对 
于 设备 文件 和 特殊 文件 ， 甚 至 每 个 文件 就 可 以 有 其 自己 的 file operations 结构 。 这 样 ， 在 实现 设备 驱动 
程序 或 特殊 文件 时 ， 只 要 单独 为 其 设置 :个 file operations 数据 结构 ， 并 通过 其 函数 指针 ioctl 提供 一 
个 专用 的 冰 数 ， 就 可 以 在 这 个 函数 中 自行 定义 和 实现 所 需 的 ioctl 操作 命令 了 。 


我 们 在 这 里 要 看 的 下 一 个 系统 调用 是 link( )， 这 个 系统 调用 为 已 经 存在 的 文件 增加 一 个 “别名 ” 
由 jink() 所 建立 的 是 “ 硬 连 接 ” 有 别 于 通过 symlink ALN FS IER”. AATF, link( ) 是 由 sys_link( ) 
实现 的 ， 其 代码 在 fs/namei.c F: 


1579 /* 

1580 * Hardlinks are often used in delicate situations. We avoid 
1581 * security-related surprises by not following symlinks on the 
1582 * newname. ——-KAB 

1583 * 

1584 * We don t follow them on the oldname either to be compatible 
1585 * with linux 2.0, and to avoid hard-linking to directories 
1586 * and other special files.  —-ADM 

1587 */ 

1588 asmlinkage long sys link(const char * oldname, const char * newname) 
1589 { 

1590 int error; 

1591 char * from: 
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1592 
1593 
1594 
1595 
1596 
1597 
1598 
1599 
1600 
1601 
1602 
1603 
1604 
1605 
1606 
1607 
1608 
1609 
1610 
1611 
1612 
1613 
1614 
1615 
1616 
1617 
1618 


1619 
1620 
1621 
1622 
1623 
1624 
1625 
1626 
1627 
1628 
1629 
1630 
1631 
1632 
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char * to: 


from = getname (oldname) ; 

if (1S_ERR (from) ) 
return PTR ERR(from) ; 

to = getname (newname) ; 

error = PTR_ERR(to); 

if (!IS ERR(to)) { 
struct dentry *new dentry; 
struct nameidata nd, old nd; 


error = 0; 
if (path init(from, LOOKUP POSITIVE, &old nd)) 
error - path walk(from, &old nd); 
if (error) | 
goto exit; 
if (path init(to, LOOKUP PARENT, &nd)) 
error - path walk(to, &nd); 
if (error) 
goto out; 
error = —EXDEY; 
if (old nd.mnt != nd. mnt) 
goto out_release; 
new dentry = lookup_create (&nd, 0); 
error = PTR_ERR(new_dentry) ; 
if (!IS_ERR(new_dentry)) { 
new dentry); 
dput (new dentry); 
j 
up(&nd. dentry-^d inode-^i sem); 
out release: 
path release (&nd); 
out: 
path release (&old nd); 
exit: 
putname (to) ; 
} 


putname (from) ; 


return error; 


} 


WLECAWET ABH RLS, CRRA PRR, Bl vfs_link( ) 是 新 的 内 容 ， 光 的 代码 也 
在 同一 文件 fs/namei.c F: 


[sys link( ) > vfs link( )] 
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1539 int vfs_link(struct dentry *old_dentry, struct. inode *dir, 
struct dentry *new deniry) 


1540 { 

1541 struct inode *inode; 

1542 int error; 

1543 

1544 down (&dir->i_ zombie); 

1545 error = -ENOENT; 

1546 inode = old dentry->d_inode; 

1547 if (!inode) 

1548 goto exit lock; 

1549 

1550 error = may create(dir, new dentry); 
1551 if (error) 

1552 goto exit lock; 

1553 

1554 error - -EXDEV; 

1555 if (dir-^i dev !- inode-^i dev) 

1556 goto exit lock; 

1557 

1558 /* 

1559 * A link to an append-only or immutable file cannot. be created. 
1560 */ 

1561 error = —EPERM; 

1562 if (IS APPEND(inode) || IS IMMUTABLE (inode) ) 
1563 goto exit_lock; 

1564 if (ldir->i op |; !dir—i op-^link) 
1565 goto exit lock; 

1566 

1567 DQUOT INIT (dir); 

1568 lock kernel( ) ; 

1569 error = dir->i_op->link(old_dentry, dir, new dentry); 
1570 unlock kernel ( ); 

1571 : 

1572 exit_lock: 

1573 up (&dir->i zombie); 

1574 if (lerror) 

1575 inode dir notify (dir, DN CREATD); 
1576 return error; 

1577 } 


这 些 内 容 义 是 读者 已 经 熟悉 了 的 , 这 里 要 注意 的 是 对 于 有 具有 IS. APPEND £& IS. IMMUTABLE 属性 
的 交 件 不 允许 为 之 建立 别名 。 具 体 的 连接 操作 以 及 这 种 连接 到 把 意 味 着 什么 ， 则 因 具 体 的 文件 系统 而 
异 。 所 以 由 具体 的 文件 系统 通过 其 inode_operations 数据 结构 中 的 函数 指针 link KEELE, Xp TF Ext2 X 
件 系 统 ， 这 个 困 数 是 ext2_link()， 尼 的 代码 在 fs/ext2/namei.c !|!: 


[sys link( ) > vfs link( ) > ext2 link( )] 
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663 static int ext2 link (struct dentry * old dentry, 


664 struct inode * dir, struct dentry *dentry) 
665 | 

666 struct inode *inode = old dentry-?d inode; 
667 int err; 

668 

669 if (S ISDIR(inode—^i mode)) 

670 return -EPERM; 

671 

672 il C(inode-^i nlink >= EXT2 LINK MAX) 

673 return —EMLINK; 

674 

675 err = ext2 add entry (dir, dentry-5d name. name, dentry-?d name. len, 
676 inode); 

677 if (err) 

678 return err; 

679 

680 inode->i_nl inkt++; 

681 inode->i ctime = CURRENT TIME; 

682 mark_inode_dirty (inodo); 

683 atomic inc (&inode->i count); 

684 d instantiate(dentry, inode); 

685 return 0; 

686 } 


显然 ， 这 个 函数 在 新 文件 名 《别名 ) 所 在 的 目录 中 创建 一 个 日 录 项 ， 这 个 日 录 项 与 原 米 存在 的 日 
录 项 都 指向 同一 个 索引 节点 。 这 里 调用 的 两 个 肯 数 ext2_add_entry( ) 和 d_instantiate( )， 读 者 部 已 经 看 到 
My. ea d_instantiate( ) 执 行 完 毕 以 后 ，inode 结构 中 的 i_dentry 队列 中 就 多 了 一 个 dentry 结构 ， 即 代 
表 着 文件 的 别名 的 dentry 结构 。 同 时 ， 这 个 队列 中 所 有 dentry 结构 中 的 指针 d_inode 部 指 加 这 同 个 
inode 结构 。 

由 此 可 见 ， 只 要 把 本 章 前 几 节 中 所 涉及 的 代 何 读 径 ， 肯 读 其 他 与 文件 操作 有 关 的 代码 束 不 难 了 ，。 
当然 ， 本 书 不 可 能 覆盖 所 有 的 文件 操作 或 者 某 一 操作 的 所 有 细节 ， 许 多 内 容 要 笔 读 者 日 己 深 入 阅读 。 

如 果 要 问 ， 在 文件 操作 方面 还 有 什么 重要 的 系统 调用 ， 那 么 有 两 个 系统 调用 是 值 得 一 所 的 ， 履 残 
是 mknod( ) 和 select( )。 但 是 ， 这 两 个 函数 主要 川 于 设备 驱动 ， 所 以 我 们 把 它们 放 在 下 堪 有 关 设 备 睫 动 
的 章节 中 。 还 有 一 个 很 重要 日 有- - 定 难 度 的 系统 调用 也 是 与 文件 操作 有 关 的 ， 那 就 是 mmap( )。 这 个 系 
统 调用 将 一 个 己 打 开 文件 的 内 容 映 射 到 进程 的 内 存 空间 ， 很 人 程度 十 是 … 个 存储 管理 的 问题 ， 所 以 我 
们 已 把 它 放 在 第 2 章 ， 读 者 可 以 在 谈 完 本 章 后 回 过 去 岗 读 。 


$.8 ”特殊 文件 系统 /proc 


早期 的 Unix 在 设备 文件 目录 /dev FRET -个 特殊 文件 ， 称 为 /dewmem。 通 过 这 个 文件 可 以 读 / 
写 系统 的 整个 物理 内 存 ， 而 物理 内 人 存 的 地 址 就 用 作 读 7 当时 文件 内 部 的 位 移 量 。 这 个 特殊 文件 同样 适 
用 于 read( )、write( ). Iseek( ) 等 常规 的 义 件 操作 ， 从 而 提供 了 一 个 在 内 核 外 部 动态 地 读 / 写 包括 内 核 
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映 象 和 内 核 中 各 个 数据 结构 以 及 堆栈 内 容 的 于 段 。 这 个 手段 栈 可 用 十 收集 状 态 信 和 息 和 统计 信息 ， 也 可 
用 于 程序 调试 ， 还 可 以 动态 地 给 内 核 “ 打 补 钉 ”或 改变 一 些 数 据 结构 或 变量 的 内 容 。 采 用 虚 存 以 后 ， 
Unix 又 增加 了 -个 特殊 文件 /devwkmem， 对 应 于 系统 的 整个 虚 存 空间 。 这 两 个 特殊 文件 的 作用 利 表 黄 
出 来 的 重 旨 性 促使 人 们 对 其 功能 加 以 进 -… 步 的 拓展 ， 在 系统 中 增设 了 一 个 /proc 目录 ， 每 当 创 建 一 个 进 
程 时 就 以 其 pid 为 文件 名 在 这 个 日 录 下 建立 起 个 特殊 文件 ， 使 得 通过 这 个 文件 就 可 以 读 / 写 相 应 进 
程 的 用 户 空间 。 而 当 进 程 exit( ) 时 则 将 此 文件 删 去 。 显 然 ， 月 录 /proc 的 名 称 就 是 这 样 来 的 。 
经 过 多 年 的 发 展 ，/proc 成 了 一 个 特殊 的 文件 系统 ， 文 件 系统 的 类 型 就 叫 proc， 其 安装 点 则 一 役 部 
固定 为 /proc， 所 以 称 其 为 proe 文件 系统 ， 有 时 也 《〈 平 正式 地 ) 称 之 为 /proc 文件 系统 。 这 个 文件 系统 中 
所 有 的 文件 玫 是 特殊 文件 ， 这 些 文件 的 内 容 都 不 存在 于 任何 设备 上 ， 而 是 在 读 / 写 的 时 候 才 根据 系统 
中 的 有 关 信 息 生 成 出 米 , 或 者 映射 到 系统 中 的 有 关 变 量 或 数据 结构 。 所 以 又 称 为 “ 伪 文 件 系 统 ”。 同时 ， 
这 个 子 系统 中 的 内 容 也 已 扩展 到 了 足以 覆盖 系统 的 几乎 所 有 方面 , 而 不 再 仅仅 是 关 寸 各个 进程 的 信息 。 
限 二 篇幅， 我 们 不 在 这 里 列 出 /proc 目录 下 的 内 容 ， 建 议 读者 自己 用 命令 “du -a /proc” 看 一 下 。 笔 
者 试 了 一 下 这 个 命令 ， 其 结果 达 1000 行 以 上 ! 大 体 上 ， 这 个 日 息 下 的 内 容 主 时 包括 如 下 几 类 ; 
(1) 系统 中 的 等 个 进程 都 有 -个 以 其 pid 为 名 的 子 日 录 ， 而 每 个 了 目录 中 则 包括 关于 该 进程 执行 
的 命令 行 、 所 有 环境 必 量 、cpu 占用 时 间 、 内 存 上 映 射 均 、 已 打开 文件 的 文件 号 以 及 进程 状态 
等 特殊 文件 。 

Q) 系统 中 各 种 资源 的 管理 信息 ， 如 /proc/slabinfo 就 是 内 存 管理 中 关 才 各 个 slab 绥 冲 块 队列 的 信 
KA, /proc/swaps 就 是 关 十 系统 的 swap 设备 的 信息 ，/proc/partitions BLAH TENERA [XCTI 
信息 ， 等 等 。 

(3) 系统 中 各 种 设备 的 有 关 信 息 ， 如 /proc/pci 就 起 关于 系统 的 PCI 总 线 上 所 有 设备 的 份 清单 ， 

Fe 
(4) 文件 系统 的 信息 ， 如 /proc/mounts 就 是 系统 中 已 经 安装 的 各 个 文件 系统 设备 的 清单 ， 而 
/proc/filesystems 则 是 系统 中 心经 登记 的 每 种 文件 系统 《类 型 ) 的 清单 。 

(5) ”中断 的 使 用 ，/proc/interrupts 是 一 份 关于 中 断 源 和 它们 的 中 断 向 量 编号 的 清单 。 

(6) 与 动态 安装 模块 有 关 的 信息 ，/proc/modules 是 一 份 系 统 中 心安 闭 动 态 模 块 的 清单 ， 山 
/proc/ksyms 则 是 内 核 中 供 可 安装 模块 动态 连接 的 符号 名 及 其 地 址 的 清单 。 | 

(7) “与 前 述 /dewmem 类 似 的 内 存 访 问 手段 ， 如 /proc/kcore。 

(8) 系统 的 版 本 号 以 及 其 他 各 种 统计 与 状态 信息 。 

读者 可 以 通过 命令 “man proc”, 看 :下 对 这 些 信息 的 说 明 。 

不 仅 如 此 ， 动 态 安 装 模 块 还 可 以 在 /proc 月 录 下 动态 地 创建 文件 ， 并 以 此 作为 模块 与 用 户 进程 问 的 
界面 。 





由 十 proc 文件 系统 并 不 物理 地 存在 于 什 何 设 备 上 , 它 的 安装 过 程 症 特殊 的 。 对 proe 文件 系统 不 能 
直接 通过 mount( ) 米 安装 ， 而 要 先 由 系统 内 核 在 内 核 初始 化 时 自动 地 通过 一 个 函数 kem mount ) 2 


一 次 ， 然后 再 由 处 理 系 统 初始 化 的 进程 通过 mount( ) 安 装 ， 实 际 上 是 “ 重 安装 ”。 我 们 来 有 有 关 的 代码 ， 
首先 是 fs/proc/procfs_syms.c 中 的 init_proc_fs( )， 这 是 在 内 核 初始 化 时 调用 的 : 


23 static DECLARE FSTYPE(proc fs type, “proc”, proc read super, FS SINGLE); 
25 static int | init init proc fs(void) 


26 { 
27 int err = register filesystem(&proc fs typo); 
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28 if (lerr) { 

29 proc mnt = kern mount (&proc fs type); 

30 err = PTR ERR(proc mnt); 

31 if (IS ERR(proc mnt)) 

32 unregister filesystem(&proc fs typo); 
33 else 

34 err = 0; 

35 } 

36 return err; 

Sc Ug 


系统 在 初始 化 阶段 对 proc 文件 系统 做 两 件 事 ， 一 是 通过 register filesystem( ) 川 系统 登记 “proec” 
这 么 一 种 文件 系统 ， 二 是 通过 kern_mount( ) 将 一 个 具体 的 proc 文件 系统 安装 到 系统 中 的 /proc 结 点 上 。 
函数 kern_mount( ) 的 代码 在 fs/super.c H^: 


[init_proc_fs( ) > kern_mount( )] 


970 struct vfsmount *kern_mount (struct file system type *type) 


971 d 

972 kdev t dev = get unnamed dev( ); 

973 struct super block *sb; 

974 struct vfsmount *mnt; 

975 if ('dev) 

976 return ERR PTR(-EMFILE) : 

977 sb = read super(dev, NULL, type, 0, NULL, 0); 
978 if (!sb) ( 

979 put unnamed dev (dev); 

980 return ERR PTR(-EINVAL) : 

981 j 

982 mnt = add vfsmnt(NULL, sb->s root, NULL): 
983 if (!Imnt) { 

984 kill super(sb, 0); 

985 return ERR PTR(-ENOMEM) ; 

986 j 

987 type-^kern mnt = mnt; 

988 return mnt; 

989  ] 


每 个 已 安装 的 文件 系统 都 要 有 个 super. block 数据 结构 ，proc 文件 系统 也 不 例外 。 由 于 super block 
数据 结构 需要 有 个 设备 号 来 惟一 地 加 以 标识 ， 尽 管 proc 文件 系统 并 不 实际 存在 于 件 何 设备 上 ， 却 也 得 
有 个 “设备 号 ”所 以 要 通过 get_unnamed_dev() 分 配 一 个 。 这 个 因数 的 代码 也 在 super.c 中 : 


[init proc fs( ) > kern mount( ) > get_unnamed_dev( )] 


757 /* 
758 * Unnamed block devices are dummy devices used by virtual 
759 * filesystems which don’t use real block-devices. -- jrs 
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160 x*/ 

161 

762 static unsigned int unnamed dev in use[256/(8*sizeof (unsigned int))]; 
763 

764 kdev t get_unnamed_dev (void) 

765. - 4 

166 int i; 

761 

768 for (i = 1; i < 256; i++) { 

769 if (!test and set bit(i,unnamed dev in usc)) 
770 return MKDEV(UNNAMED MAJOR, i); 

771 } 

772 return 0; 

T3. 3 


这 个 “设备 号 ”的 主 设备 号 为 UNNAMED_MAJOR， 和 定义 为 0。 

除 此 之 外 ，kern_mount( ) 中 调用 的 皮 数 读者 在 “文件 系统 的 安装 和 拆卸 ”“ 节 中 都 已 看 过 了 。 函数 
read super( ) (网 “ 文 件 系 统 的 安装 与 拆卸 六 分 配 一 个 空白 的 super_block 数据 结构 ， 然 后 通过 由 具体 
文件 系统 的 file_system_type 数 据 结 构 中 的 函数 指针 read_super 调用 有 具体 的 函数 来 读 入 超级 块 . 对 寺 Pproc 
文件 系统 ， 这 个 函数 为 proc_read_super( )， 这 是 在 上 上面 的 宏 定 义 DECLARE_FSTYPE 中 定义 好 的 ， 其 
代码 在 fs/proc/inode.c 中 : 


[init proc fs( ) > kern_mount( ) > read_super( ) > proc read. super( )] 


181 struct super block *proc read super (struct super block *s, void *data, 
182 int silent) 


183 | 

184 struct inode * root inode; 

185 struct task struct *p; 

186 

187 s-»s blocksize = 1024; 

188 s-»s blocksize bits = 10; 

189 s ^s magic = PROC SUPER MAGIC; 

190 s->s_ op = &proc sops; 

191 root inode = proc get inode(s, PROC ROOT INO, &proc root); 
192 if (!root inode) 

193 goto out no root; 

194 /* 

195 * Fixup the root inode’ s nlink value 

196 */ 

197 read lock(&tasklist lock); 

198 for each task(p) if (p-— pid) root inode-^i nlink!t; 
199 read unlock(&tasklist lock); 

200 s—^s root = d alloc root(root inode); 

201 if (!s-5s root) 

202 goto oulL no root; 

203 parse options(data, &root inode-^i uid, &root inode-^i gid); 
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204 return s; 

205 

206 out no root: 

207 prinatk( proc read super: get root inode failed\n”) ; 
208 iput(root inode); 

209 return NULL; 

210  ] 


可 见 , 说 是 “ 恋 入 超级 块 ”, Scb EE ERER”, LEAT, super block 结构 中 的 super. operations 
指针 s op 被 设置 成 指向 proc_sops， 这 也 是 在 fs/proc/inode.c 中 定义 的 : 


94 static struct super operations proc sops - { 
95 read inode: proc read inode, 

96 put inode: force delete, 

97 delete inode: proc delete inode, 

98 statfs: proc statfs, 

98- J; 


读者 将 会 看 到 ，proc 文件 系统 的 inode 结构 也 像 其 super. block 结构 一 样 , 在 设备 上 并 没有 对 应 物 ， 
而 仪 仪 吓 在 内 存 中 生成 的 “空中 楼 疝 ” 这 些 函数 正 起 为 这 些 “ 空 中 楼 阅 ” 服 务 的 。 

MUU, proc 文件 系统 中 的 目录 项 结构 ， 即 dentry 结构 ， 在 设备 土 也 没有 对 应 物 ， 而 以 内 存 中 
的 proc dir entry 数据 结构 来 代替 ， 定 义 于 include/linux/proc_fs.h: 


53 struct proc dir entry { 
54 unsigned short low ino; 
55 unsigned short namelen; 
56 const char *name; 

51 mode t mode; 

58 nlink t nlink; 

59 uid t uid: 

60 gid t gid; 


61 unsigned long size; 
62 struct inode operations * proc _iops; 
63 struct file operations * proc fops; 


64 get info t *get info; 

65 struct module *owner; 

66 struct proc dir entry *ncxt, *parent, **subdir; 
67 void *data; 

68 read proc t *read proc; 

69 write proc t *write proc; 

10 unsigned int count; /* use count */ 


71 int deleted; /* delete flag */ 
: 72 kdev t rdev; 
: 19:795 
: 显然 , XS BG S Fr IR HG S P AAS RV E S T. inode RESTAR, 所 以 实际 上 既是 创建 
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dentry 结构 的 依据 ， 又 是 inode 结构 中 息 的 来 源 。 如 果 与 Ext2 文件 系统 中 的 ext2_direntry 结构 
相 比 ， 则 那 是 存储 在 设备 上 的 “日 录 项 ”，I 人 向 proc dir entry 结构 只 存在 于 内 存 中 ， 并 且 包 含 了 更 多 的 
信息 。 这 些 proc. dir entry 结构 多 数 帮 是 在 系统 的 运行 中 动态 地 分 配 空间 而 创立 的 ， 但 是 也 有 - 些 是 静 

态 定义 的 , 其 中 最 重 此 的 就 是 proc 文件 系统 的 根 节 点 , 即 /proc 的 目录 项 proc, root, 定义 于 fs/proc/root.c 


96 /* 

97 * This is the root “inode” in the /proc tree.. 
98 */ 

99 struct proc dir entry proc root = | 

100 low ino: PROC ROOT INO, 

101 namelen: 5, 

102 name: "/proc^, 

103 mode: S TFDIR | S IRUGO : S IXUGO, 
104 nlink: 2; 

105 proc iops: &proc root inode operations, 
106 proc fops: &proc root operations, 

107 parent: &proc root, 

108 }; 


注意 ， 这 个 数据 结构 中 的 指针 proc iops 指向 proc root inode operations. Tf] proc fops 指向 
proc_root ee 还 有 ， 结构 中 的 指针 parent 指向 其 自己 ， 即 proe root; 也 就 是 说 ， 这 个 节点 是 一 
个 文件 系统 的 根 节 点 。 

[I] i] proc_read_super( ) 的 代码 中 ， 数 据 结构 proc root 就 用 来 创建 根 节点 /proc 的 inode 结构 ， 其 中 
PROC_ROOT_INO 的 定义 在 文件 proc. fs.h 中 给 出 : 


22 PROC_ROOT_TNO = 1, 


所 以 ， 用 于 /proc 的 inode 节点 号 总 是 1， 而 设备 上 的 1 号 索引 节点 是 保留 不 用 的 。 
函数 proc_get_inode( ) 的 代码 在 fs/proc/inode.c 中 : 


[init proc fs( ) > kern, mount( ) > read_super( ) > proc_read_super( ) > proc_get_inode( )] 


131 struct inode * proc get inode(struct super block * sb, int ino, 
132 struct proc dir entry * de) 

133 { 

134 struct inode * inode; 

135 

136 /*k 

137 * Increment the use count so the dir entry can t disappear. 
138 */ 

139 de get (de) ; 

140 #if 1 


14] /* shouldn't ever happen */ 
142 if (de && de->deleted) 
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143 printk( proc iget: using deleted entry %s, count=%d\n”, de->name, 
aomic read(&de >count)); 





144 tendif 

145 

146 inode = iget(sb, ino); 

147 if (linode) 

148 goto out fail; 

149 

150 inode->u. generic ip = (void *) de; 

151 if (de) { 

152 if (de->mode) { 

153 inode-»i mode = de-»mode; 

154 inode->i_ uid = de >uid: 

155 inode->i_gid = de-?gid; 

156 } 

157 if (de->size) 

158 inode->i_ size -- de-?size; 

159 if (de->nlink) 

160 inode->i nlink = de->nlink; 

161 if (de->owner) 

162 . .MOD INC USE COUNT (de->owner) ; 
163 if (S ISBLK(de-^mode) | |S_ISCHR (de~>mode) | S ISFIFO(de-»mode)) 
164 init special inode(inode, de->mode, kdev t to nr(de— rdev)); 
165 else { 

166 if (de->proc_iops) 

167 inode->1_op = de->proc iops; 
168 if (de->proc fops) 

169 inode->i fop = de >proc_fops; 
170 } 

171 } 

172 

173 out: 

174 return inode; 

175 

176 out fail: 

177 de put (de); 

178 gota out; 

179 |] 


我 们 知道 , inode 结构 包含 着 - union, 视 其 体 的 文件 系统 而 用 作 不 同 的 数据 结构 , 例如 对 于 Ext2 
文件 系统 就 用 作 ext2_inode_info 结构 ， 在 inode 数据 结构 的 定义 中 列 出 了 适用 填 不 同文 件 系统 的 不 同 
数据 结构 。 如 果 具 体 的 文件 系统 不 在 其 列 ， 则 将 这 个 union( 的 开头 4 个 字 节 ) 解 释 为 一 个 指针 ， 这 就 是 
generic_ip。 在 这 里， 就 将 这 个 指针 设置 成 指向 相应 的 proc_dir_entry 结构 ， 使 其 在 逻辑 上 成 为 inode 结 
构 的 一 部 分 。 至 于 de_get( )， 那 只 是 递增 数据 结构 中 的 使 用 计数 而 已 ， 此 外 ，iget( ) 是 个 inline Až, 
读者 已 经 在 前 几 节 中 看 到 过 了 .在 这 蛙 , 由 寺 相 应 的 inode 结构 还 不 存在 ,实际 上 会 调用 get_new_inode( ) 
分 配 一 个 inode 结构 。 
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创建 了 proc 文件 系统 根 节点 的 inode 结构 以 后 ， 还 要 通过 d_alloc_root( ) 创 建 其 dentry 结构 。 这 个 
函数 的 代 何 读者 已 在 “文件 系统 的 安装 与 拆 基 ” 一 节 中 看 到 过 了 。 

这 里 还 有 个 有 趣 的 事 ， 就 是 对 系统 中 除 0 号 进程 以 外 的 所 有 进程 者 递增 该 inode 结构 中 的 i_nlink 
字段 。 这 样 ， 只 要 这 些 进程 中 的 任何 一 个 还 存在 ， 就 个 能 把 这 个 inode 结构 删除 。 

回 到 kern. mount( ), PAR add_vismnt( ) 的 代码 也 是 读者 已 经 看 到 过 的 。 但 是 ， 要 注意 这 里 调 几 这 
个 也 数 时 的 参数 。 第 -个 参数 nd 是 个 nameidata 结构 指针 ， 本 来 应 该 指向 代表 者 安装 点 的 nameidata 
结构 ， 从 这 个 结构 里 就 可 以 得 到 指向 安装 点 dentry 结构 的 指 外。 可 是 ， 这 里 的 调用 参数 却 是 NULL. 
第 二 个 参数 root 是 个 dentry 结构 指针 ， 指 向 待 安 逆 文件 系统 中 根 目 水 的 dentry 结构 ,在 这 里 是 proc X 
件 系统 根 节 点 的 dentry 数据 结构 。 可 是 ， 如 果 指 向 安装 点 的 指针 是 NULL, RGA ZEE? 我 们 来 看 
add vfsmnt( ) 中 的 主体 ; 


337 mnt-»mnt root = dget (root); 
338 mnt-^mnt mountpoint = nd ? dget(nd~>dentry) : dget (root) ; 
339 mit—>mnt parent = nd ? mntget(nd— mnt) : mnt; 
340 
341 if (nd) { 
342 list add(&mnt-^mnt child, &nd-^mnt-^mnt mounts); 
343 list add(&mnt-^mnt clash, &nd-^dentry-5d vfsmnt); 
344 } else { 
345 INIT LIST HEAD(&mnt-^mnt child); 
346 INIT LIST HEAD(&mnt-?mnt clash); 
347 } 
348 TNIT LIST HEAD (&mnt->mnt_mounts) ; 
349 list_add(&mmt—mnt_instances, &sb->s_mounts) ; 
350 list_add(&mnt->mnt_ list, vfsmntlist. prev); 
可 见 ， 在 参数 nd 为 NULL 时 ， 安 装 以 后 其 vfsmount 结构 中 的 指针 mnt_mountpoint JARRA 


件 系 统 中 根 月 录 的 dentry 结构 ， 即 proc 文件 系统 根 节 点 的 dentry 结构 本 身 ; 指针 mnt, parent 则 指向 这 
个 vfsmount 结构 本 身 。 并 卫 ， 这 个 vfsmount 结构 的 mnt, child 和 mnt. clash PRT BASIS Se AR. 
显然 , 这 个 vfsmount 结构 并 没有 把 proc 文件 系统 的 根 冯 点 “安装 ”到 什么 地 方 。 可 不 , 回 到 kern_mount( ) 
的 代码 中 ， 下 面 还 有 一 行 重 要 的 语句 : 


987 Lype->kern mnt = mnt; 


这 个 语句 使 proc 文件 系统 的 file_system_type 数据 结构 与 上 面 的 vfsmount AMEE TY, PEM 
指针 kern_mnt 指向 了 这 个 vfsmount 结构 。 可 是 ， 这 并 人 不意 昧 着 path_walk( RREME PREZ, “/proc” 
3k $0 proc 文件 系统 的 根 节 点 ， 因 为 path_walk( ) 并 不 涉及 file system. type 数据 结构 。 

正 因为 如 此 , 光 是 kern_mount( ) 述 不 够 ,还 得 出 系统 的 初始 化 进程 从 内 核 外 部 通过 系统 调用 mount) 
再 安装 次。 通常 ， 这 个 命令 行为 : 

mount -nvt proc /dev/null /proc 


就 是 说 ， 把 建立 在 “ 空 设 备 ”/devnull 上 的 proc 文件 系统 安装 在 全 点 /proc 上 。 从 理论 讲 也 可 以 把 
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它 安装 在 其 他 节点 上 ， 但 实际 上 总 是 安装 企 /proc E. 





前 徊 我 们 提 到 过 ，proc 文件 系统 的 file system type 数据 结构 中 的 FS. SINGLE 标志 位 为 1， 它 起 


ABBE. AAR BE? 因为 它 使 sys_mount() 的 主体 do_mount( ) 通 过 get_sb_single( )， 和 而 不 是 
get_sb_bdev( )， 来 取得 所 安装 文件 系统 的 super. block 数据 结构 。 我 们 回顾 一 下 do_mount( ) 中 与 此 有 关 


的 片段 : 


/* get superblock, locks mount sem on success */ 
if (fstype->fs flags & FS NOMOUNT) 
sb = ERR PTR(-EINVAL) ; 
else if (fstype—^fs flags & FS REQUIRES DEY) 
sb = get sb bdev(fstype, dev name, flags, data page); 
else if (fstype-^fs flags & FS STNGLE) 
sb - get sb single(fstype, flags, data page); 


LEM ww č s 


我 们 在 “文件 系统 的 安装 与 拆卸 ”一 章 中 阅读 do mount( ) 的 代码 时 跳 过 了 get sb single( )， 现 在 
要 问 过 来 看 它 的 代码 了 (fs/super.c)。 


[sys mount( ) > do mount( ) > get_sb_single( )] 


870 
871 
872 
873 
874 
875 
876 
877 
878 
879 
880 
881 
882 
883 
884 
885 


static struct super block *get_sb_single (struct file system type *fs type, 


{ 


} 


int flags, void *data) 


struct super block * sb; 
/* 
* Get the superblock of kernel-wide instance, but 
* keep the reference to fs_type. 
*/ 
down (&mount sem); 
sb = fs type-^kern mnt-^mnt sb; 
if (sb) 
BUG( ) ; 
get filesystem(fs type); 
do remount sb(sb, flags, data); 
return sb; 


代码 中 通过 file system type 结构 中 的 指针 kern. mnt 取得 对 于 所 安装 文件 系统 的 vfsmount 结构 ， 
从 而 对 其 super block 结构 的 访问 ， 而 这 正 是 在 kern mount( ) 中 设置 好 了 的 。 这 里 还 调用 了 一 个 函数 
do_remount_sb( ), 其 代码 也 在 fs/super.c 中 : 


[sys_mount( ) > do mount( ) > get_sb_single( ) > do_remount_sb( )] 


936 
937 


/* 


* Alters the mount flags of a mounted file system. Only the mount point 
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938 
939 
940 
941 
942 
943 
944 
945 
946 
947 
948 
949 
950 
951 
952 
953 
954 
955 
956 
957 
958 
959 
960 
961 
962 
963 
964 
965 
966 
967 
968 
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* is used as a reference - file system type and the device are ignored. 


static int do remount sb (struct super block *sb, int flags, char *data) 


{ 


} 


int retval; 


if (!(flags & MS RDONLY) && sb—s dev && is_read_only(sb->s_dev)) 
return —EACCES; 
/*flags |= MS RDONLY:*/ 
/* If we are remounting RDONLY, make sure there are no rw files open */ 
if ((flags & MS RDONLY) && !(sb-^s flags & MS RDONLY)) 
if (!fs may remount ro(sb)) 
return -EBUSY; 
if (sb-^s op && sb->s op-^remount fs) { 
lock super (sb) ; 
retval = sb->s op->remount_fs(sb, &flags, data); 
unlock super (sb); 
if (retval) 
return retval; 
) 
sb-»s flags = (sb-»s flags & MS RMT MASK) | (flags & MS RMT MASK): 


/* 

* We can’t invalidate inodes as we can loose data when remounting 

* (someone might manage to alter data while we are waiting in lock_super( ) 
* or in foo remount [s( ))) 


*/ 


return 0; 


这 个 函数 对 于 proc 文件 系统 作用 不 大 ， 因 为 proc 并 无 特殊 的 remount fs 操作 。 标 志 位 屏蔽 模 


MS RMT MASK 的 定义 在 include/linux/fs.h 中 : 


110 
111 
112 
113 
114 


/* 
* Flags that can be altered by MS REMOUNT 


#define MS RMT MASK (MS RDONLY|MS NOSUID|MS NODEV|MS_NOEXEC|\ 


MS SYNCHRONOUS MS MANDLOCK |MS, NOATIME|MS NODTRATTME) 


经 过 do remount. sb( ) 以 后 ,原来 super_block 结构 中 的 这 些 标志 位 就 由 用 户 所 提供 的 相应 标志 位 所 
取代 。 
取得 了 proc 文件 系统 的 super block 结构 以 后 ， 回 到 do mount( ) 的 代 但 中 ， 此 后 的 操作 就 与 普通 


文件 系统 的 安装 巨 异 了 。 这 样 ， 就 将 proc 文件 系统 安装 到 了 市 点 /proc 上 。 


前 而 讲 过 , 整个 proc 文件 系统 都 不 存在 于 设备 上 , 所 以 不 光 是 它 的 根 节点 需 费 在 内 存 中 创造 出 来 ， 
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自 根 节 点 以 下 的 所 有 节点 全 都 需要 在 运行 时 加 以 创建 ， 这 是 由 内 核 在 初始 化 时 调用 proc_root_init( ) 完 
成 的 ， 其 代码 在 fs/proc/root.c H: 





25 void init proc root init (void) 


26 { 

2T proc_misc_init( ); 

28 proc net = proc mkdir(^net^, 0); 

29 #ifdef CONFIG SYSVIPC 

30 proc mkdir( /sysvipc/, 0); 

31 Hendif 

32 #ifdef CONFIG SYSCTL 

33 proc sys rootl = proc_mkdir(“sys”, 0); 
34 Hendif 

35 proc root fs = proc_mkdir( fs”, 0); 
36 proc root driver = proc mkdir( driver", 0); 


37 #if defined(CONFIG_SUN_OPENPROMFS) || \ 
defined(CONFIG SUN OPENPROMFS MODULE) 


38 /* just give it a mountpoint */ 
39 proc mkdir(^openprom/, 0); 

40 #endif 

4] proc tty init( ); 

42 #ifdef CONFIG PROC DEVICETREE 

43 proc device tree init( ); 

44 H#endif 

45 proc bus = proc mkdir (“bus”, 0); 
46 } 


首先 是 直接 在 /proc 下 面 的 叶 节点 ， 即 文件 节点 ， 这 是 由 proc misc ini ) 创 建 的 ， 其 代码 在 


fs/proc/proc_miss.c 中 ， 


[proc_root_init( ) > proc_misc_init( )] 


505 void | init proc misc init (void) 





506 { 

507 struct proc dir entry *entry; 

508 static struct { 

509 char *name; 

510 int (*read_proc) (char*, char**, off t, int, int*, void*); 
511 } *p, simple ones[ ] = { 

512 “loadavg”, loadavg read proc], 
513 {“uptime”, uptime read proc], 

514 [^meminfo', meminfo read proc], 

515 ['version', version read proc], 

516 l'cpuinfo", cpuinfo read proc], 

517 #ifdef CONFIG PROC HARDWARE 

518 (^hardware^, hardware read proc], 
519 #endif 
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520 #ifdef CONFIG STRAM PROC 


521 ('stram", | stram read proc], 

522 #endif 

523 #ifdef CONFIG DEBUG MALLOC 

524 {“malloc”, malloc read proc], 

525 Hendif 

526 Bifdef CONFIG MODULES 

527 ("modules", modules read proc}, 

528 l'ksyms^, | ksyms read proc], 

529 #endif 

530 l"stat^, kstat read proc], 

531 {"devices”, devices read proc], 

532 ('partitions/, partitions read proc}, 

533 tif !defined(CONFTIG ARCH S390) 

534 ('interrupts^,  interrupts read proc], 

535 #endif 

536 ('filesystems^, filesystems_read_proc}, 

537 {" dma”, dma_read proc}, 

538 ('ioports/, ioports read proc}, 

539 {“cmdline”, cmdline read proc}, 

540 #ifdef CONFIG SGI DS1286 

541 {rte”, ds1286 rcad proc], 

542 #endif 

543 {"locks”, locks read proc], 

544 í^mounts", mounts read proc], 

545 {" swaps”, | swaps read proc], 

546 ('iomem", | memory read proc], 

547 ('execdomains", execdomains read proc], 

548 (NULL, ) 

549 js 

550 for (p = simple ones; p-^name; p++) 

551 create proc read entry(p >name, 0, NULL, p->read proc, NULL) ; 
552 

553 /* And now for trickier ones */ 

554 entry = create proc entry kmsg/, S IRUSR, &proc root); 
555 if (entry) 

556 entry->proc_fops = &proc kmsg operations; 

557 proe root kcore = create proc entry("kcore^, S IRUSR, NULL); 
558 if (proc root kcorc) | 

559 proc root_kcore->proc_fops = &proc kcore operations; 
560 proc root kcore-»5size = 

561 (size t)high memory - PAGE OFFSET + PAGE SIZE; 
562 } 

563 if (prof_shift) { 

564 entry = create proc entry( profile^, S IWUSR | S TRUGO, NULL) ; 
565 if (entry) | 

566 entry-»proc fops - &proc profile operations; 

567 entry) size = (l*prof len) * sizeof(unsigned int); 
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} 
} 
#ifdef . powerpc . 
{ 
extern struct file operations ppc htab operations; 
entry = create proc entry(/ppc htab”, S IRUGO|S IWUSR, NULL); 
if (entry) 
entry-»proc fops = &ppc htab operations; 
} 
Bendif 
slabinfo read proc, NULL); 
if (entry) 
entry-2write proc = slabinfo write proc; 


) 


AARRE PEE — T AC PA PE RPI TCR proc 目录 中 的 个 


(文件 ) Wndih—^ RBH Lt. Bld, T /proc/cpuinfo RWG cpuinfo_read_proc( FERN, “4 个 进 
程 访问 这 个 他 点， 要 读 出 这 个 特殊 文件 的 内 容 时 , 就 由 cpuinfo_read_proc( ) 从 内 核 中 收集 有 关 的 信息 并 
临时 生成 该 文件 的 内 容 。 这 个 数组 中 所 涉及 的 所 有 特殊 文件 部 只 支持 读 操 作 ， 而 不 支持 其 他 的 浆 件 所 
fE (如 写 、lseek( ) 等 ;。 丰 一目 这 个 数组 ， 即 simple_onesf |， 读 者 就 可 以 约略 地 感受 到 在 /proc 下 面 的 
这 些 特殊 文件 所 提供 的 信息 是 何等 地 充分 和 多 样 。 所 有 这 些 也 数 都 要 通过 create_proc_read_entry( ) 为 之 
创建 起 proc dir entry 结构 和 inode 结构 ， 并 且 与 节点 /proc 的 数据 结构 挂 上 钓 ， 这 是 定义 于 
include/linux/proc_fs.h 中 的 一 个 inline 函数 : 


[proc root init( ) > proc misc init( ) > create proc read entry( )] 


135 


136 
137 
138 
139 
140 
141 
142 
143 
144 
145 


extern inline struct proc dir entry *create proc read entry( 
const char *name, 
mode t mode, struct proc dir entry *base, 
read proc t *read proc, void * data) 


struct proc dir entry *res-create proc entry (name, mode, base); 
if (res) { 

res-?read proc-read proc; 

res-?data-data; 


} 


return res; 


j 


对 照 一 卜 调用 时 的 参数 ， 就 可 以 看 到 这 里 除 name 和 read. proc 以 外 其 他 参数 都 是 0 或 NULL， 特 


别 地 ， 文 件 的 mode 为 0。 所 以 这 里 做 的 就 是 通过 create_proc_entry( ) 建 立 起 有 关 的 数据 结构 并 将 所 创 
建 proc_dir_entry 结构 中 的 毅 数 指针 read. proc 设置 成 指向 相应 的 函数 。 


函数 create. proc. entry( ) 的 代码 在 fs/proc/generic.c 中 : 


[proc root init( ) > proc_misc_init( ) > create proc read entry( ) > create proc entry( )] 
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497 struct proc dir entry *create proc entry (const char *name, mode t mode, 





498 struct proc dir entry *parent) 
499 { 

500 struct proc dir entry *ent = NULL; 

501 const char *fn = name; 

502 int len; 

503 

504 if (!parent && xlate proc name (name, &parent, &f{n) !- 0) 
505 goto out; 

506 len = strlen(fn); 

507 

508 ent = kmalloc(sizeof (struct proc dir entry) + len + 1, GFP KERNEL); 
509 if (lent) 

510 goto out; 

511 memset(ent, 0, sizeof(struct proc dir entry)); 
512 memcpy(((char *) ent) + sizeof (tent), fn, len + 1); 
513 ent-^»name = ((char *) ent) + sizeof (ent) ; 

514 ent-»namelen = len; 

515 

516 if (S ISDIR(mode)) | 

517 if ((mode & S TALLUGO) == 0) 

518 mode |- S IRUGO | S IXUGO; 

519 ent->proc fops = &proc dir operations; 

520 ent->proc_iops = &proc dir inode operations; 
521 ent—nlink = 2; 

522 } else { 

523 if ((mode & S IFMT) == 0) 

524 mode ;= S IFREG; 

525 if ((mode & S TALLUGO) == 0) 

526 mode |- S IRUGO; 

527 ent->nlink = 1; 

528 } 

529 ent—>mode = mode; 

530 

531 proe register(parent, ent); 

532 

533 out: 

534 return ent; 

535 } 


在 这 个 情景 中 ， 进 入 这 个 函数 时 的 参数 parent 为 NULL， 所 以 在 第 505 行 调用 xlate_proc_name( ), 
它 将 作为 参数 传 下 来 的 节点 名 《如 “epuinfo”) 转换 成 从 “/proc” 开 始 的 路 径 名 ， 并 且 遂 过 副作用 退回 
指向 节点 proc 的 proc, dir. entry 结构 的 指针 作为 parent。 显 然 ， 这 个 函数 的 作用 在 这 里 是 很 关键 的 ， 其 
代码 在 fs/proc/generic.c P: 


[proc_root_init( ) > proc_misc_init( ) create proc read entry( ) > create proc entry( ) > 
xlate proc, name( )] 
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161 /* 

162 * This function parses a name such as “tty/driver/serial”, and 
163 * returns the struct proc dir entry for "/proc/tty/driver/, and 
164 * returns "serial" in residual. 

165 */ 

166 static int xlate proc name(const char *name, 

167 struct proc dir entry **ret, const char **residual) 
168 { 

169 const char *cp = name, *next; 

170 struct proc dir entry  *de; 

171 int len; 

172 

173 de = &proc root ; 

174 while (1) { 

175 next - strchr(cp, '/'); 

176 if (!next) 

171 break; 

178 

179 en = next - cp; 

180 for (de = de->subdir; de ; de = de->next) { 

181 if (proc match(len, cp, de)) 

182 break; 

183 } 

184 if (!de) 

185 return —ENOENT; 

186 cp *- len * 1; 

187 ) 

188 *residual = cp; 

189 *ret = de; 

190 return 0; 


191 j 


这 里 proc root 束 足 根 节 点 /proc 的 proc. dir entry 结构 ， 结 构 中 的 subdir 是 “个 队列 。 下 面 读者 就 
会 看 到 , /proc 下 所 有 节点 的 proc. dir entry 结构 都 在 这 个 队列 中 。 函 数 strchr( ) 在 字符 串 cp 中 寻找 第 一 
个 “/” 字 符 并 返回 指向 该 字符 的 指针 。 函 数 中 的 while 循环 逐 人 地 检查 作为 相对 路 径 名 的 字符 串 ， 人 在 
/proc 下 面 的 了 目录 队 列 中 寻求 匹配 。 对 于 字符 串 “cpuinfo” 来 说 ， 由 于 字符 串 中 并 无 “/” 字 符 存 在 ， 
因而 strchr( ) 返 回 NULL 而 经 由 第 177 行 的 break 语句 结束 while 循环 。 所 以 ,对 于 相对 路 径 名 “cpuinfo” 
上 而 言 ， 这 个 函数 返回 0， 并 且 在 返回 create_proc_entry( ) 后 使 parent 指向 /proc 的 proc_dir_entry 结构 ， 
向 fn 则 保持 不 变 。 这 么 :来 ， 在 为 节点 “cpuinfo” 分 配 proc dir entry. 结构 并 加 以 初始 化 以 后 ， 当 油 
用 proc_register( IY, parent 就 定 指 问 /proc 或 其 他 给 定 父 节点 的 proc. dir entry 结构 。 

dil proc. register ) 将 “个 新 节点 的 proc, dir entry 结构 "登记 ”( 即 振 入 ) 到 父 节点 的 Proc_dir_entry 
结构 内 的 subdir 队列 小 ， 它 的 源 代 码 在 同 :文件 fs/proc/generic.c FP: 


[proc root init( ) > proc_misc. init( ) > create_proc_read_entry( ) > create proc entry( ) > proc_register( )] 


350 static int proc register(struct proc dir entry * dir, 
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369 
370 
371 
372 
373 
374 
379 


} 
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struct proc dir entry * dp) 
int i; 


i = make inode number( ); 
if G < 0) 
return —EAGAIN; 
dp->low ino = i; 
dp->next = dir->subdir; 
dp->parent = dir; 
dir-^»subdir = dp; 
if (S_TSDIR(dp->mode)) { 
if (dp->proc iops == NULL) { 
dp->proc_fops = &proc dir operations; 
dp-^proc iops = &proc dir inode operations; 
} 
dir->nlink++; 
) else if (S_ISLNK(dp->mode)) { 
if (dp->proc_iops == NULL) 
dp-^proc iops = &proc link inode operations; 
} else if (S ISREG(dp->mode)) { 
if (dp->proc fops == NULL) 
dp— proc fops = &proc file operations; 
} 


return 0; 


参数 dir 指向 父 节点 ，dp 则 指向 要 登记 的 节点 。 如 前 所 述 ，/proc 及 其 下 属 的 所 有 节点 在 设备 上 都 
没有 对 应 的 索引 节点 ， 但 是 在 内 存 中 却 都 有 inode 数据 结构 。 既 然 有 inode 结构 ， 就 要 有 索引 节点 号 。 
proc 文件 系统 的 根 节点 即 /proc 节点 的 索引 节点 号 为 1， 可 是 其 他 节点 呢 ? 这 就 要 通过 
make_inode_number( ) 予 以 分 配 了 ， 此 函数 的 代码 也 在 文件 fs/proc/generic.c H: 


[proc_root_init( ) > proc_misc_init( ) > create_proc_read_entry( ) > create proc entry( ) > proc register( ) > 
make inode number( )] 


193 
194 
195 
196 
197 
198 
199 
200 
201 
202 


static unsigned char proc alloc map[PROC NDYNAMIC / 8]; 


static int make inode number (void) 


{ 


j 


int i = find first zero bit((void *) proc alloc map, PROC NDYNAMIC) ; 
if (i<0 || i»-PROC NDYNAMIC) 
return -1; 
set bit(i, (void *) proc alloc map); 
return PROC DYNAMTC FIRST + i; 


代码 中 用 到 的 几 个 常量 在 文件 include/linux/proc. fs.h 中 给 出 : 
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25 /* Finally, the dynamically allocatable proc entries are reserved */ 
26 

27 #define PROC DYNAMIC FIRST 4096 

28 define PROC NDYNAMIC 4096 


可 见 ， 这 些 节点 的 索引 节点 号 部 在 4096—8192 范围 内 。 索 引 节点 号 并 不 需要 在 整个 系统 的 范围 中 
保持 惟 - “， 而 只 要 在 同一 设备 的 范围 中 惟一 就 可 以 了 。 当 然 ，/proc 下 而 的 节点 都 不 属于 任何 设备 ， 但 
是 也 有 个 设备 ， 所 以 这 些 索引 节点 号 也 因此 而 不 会 与 任何 个 具体 设备 上 的 索引 节点 时 冲突 。 

从 代码 中 可 以 看 出 ，proc 文件 系统 有 两 个 file_operations 数据 结构 ， 即 proc_dir_operations 和 
proc file operations ， 以 及 两 个 inode_operations 数据 结构 ， 妈 proc_dir_inode_operations 和 
proc_link_inode_operations， 视 具体 节点 的 类 型 加 以 设置 。 例 如 ， 下 面 讲 到 的 /proc/seif 就 是 一 个 连接 节 
Ao PLA proc_iops 484] proc. link operations. 

此 外 ，proc_register( ) 中 的 代码 就 没有 什么 需要 特别 加 以 说 明 的 了 。 不 过 ， 从 “cpuinfo” 这 个 例子 
可 以 看 出 ， 所 谓 subdir 队列 并 非 “ 子 目录 的 队列 ”， 而 是 “下 属 节 点 的 目录 项 的 队 州 ”。 

回 到 proc misc init( ) 的 代码 中 ， 除 数组 simple_ones[ ] 中 的 节点 外 ， 还 有 “kmsg”、”kcore” 以 及 
“profile” 二 个 节点 。 由 于 这 些 特殊 文件 的 访问 权限 有 所 不 同 ， 例 如 “kmsg” 和 "core” 的 mode 都 是 
S_IRUSR， 也 就 是 只 有 文件 主 即 特权 用 户 才 有 读 访 问 权 ， 所 以 不 能 律 套 用 create proc read entry( ), 
MEIR create. proc. entry( ).. FARY proc/kcore 代表 着 映射 到 系统 空间 的 物理 内 存 ， 其 起 点 为 
PAGE_OFFSET， 即 0x0000 0000， 而 high memory 则 为 系统 的 物理 内 存在 系统 空间 映射 的 终点 。 

创建 了 这 些 自 接 在 /proc 日 录 中 的 特殊 文件 以 后 ，proc_root_init( ) 还 要 在 /proc 目录 中 创建 一 些 子 日 
A. HU "net". "fs". "driver", "bus". He A AB proc_mkdir( ) 创 建 的 。 其 代码 在 
fs/proc/generic.c 中 ， 不 过 它 与 create_proc_entry( ) 在 参数 mode 中 的 S_IFDIR 为 1 而 S IALLUGO 为 0 
时 相同 ， 所 以 我 们 不 在 这 里 列 出 它 的 代码 了 。 

还 有 一 个 很 特殊 的 子 日 录 “self”，/proc/self 代表 着 这 个 节点 受到 访问 时 的 当前 进程 。 也 就 是 说 ， 
谁 访问 这 个 节点 ， 它 就 代表 谁 ， 它 总 是 代表 着 访问 这 个 节点 的 进程 自己 。 系 统 中 的 每 - -个 进程 在 /proc 
目录 中 都 有 一 个 以 其 进程 号 为 节点 名 的 子 目 录 ， 在 子 月 录 中 则 又 有 cmdline, cpu, cwd, environ 等 节 
忌 ， 上 肥 映 着 该 进程 各 方面 的 状态 和 信息 。 其 中 多 数 节点 是 特殊 文件 ， 有 的 却 是 目录 节点 。 如 cwd 就 是 
个 目录 节点 ,连接 到 该 进程 的 “当前 工作 和 目录”; 而 cmdline 则 为 启动 该 进程 的 可 执行 程序 时 的 命令 行 。 
这 样 , 特权 用 户 可 以 在 运行 中 打开 任何 一 个 进程 的 有 关 文 件 节点 或 目录 节点 读 取 该 进程 各 方面 的 信息 。 
一 般 用 户 也 可 以 用 自己 的 pid 组 装 起 路 径 名 来 获取 有 关 其 自身 的 信息 ， 或 者 就 通过 /proc/self 来 获取 有 
大 其 自身 的 信息 。 读 者 不 妨 在 机 器 上 试 一 下 “more /proc/self/cemdline” 命 令 行 ， 看 看 是 什么 结果 。 这 
ASF Fe RP RZ RBYRTET : ' 尼 并 没有 一 个 固定 的 proc dir entry 数据 结构 ， 也 没有 周 定 的 inode 结构 ， 
而 是 在 需要 时 临时 予以 牛 成 。 后 而 我 们 还 会 回 到 这 个 话题 。 

上 述 这 些 子 日 录 基本 上 〔( 除 self 以 外 ) 都 是 最 底层 的 是 录 节 点 ， 在 它们 下 面 就 只 有 文件 而 再 没有 
其 他 目录 节点 了 。 但 是 /proc/tty 却 是 一 棵 子 树 ， 在 这 个 节点 下 面 还 有 其 他 日 录 节 点 ， 所 以 专门 有 个 函数 
proc_tty_init( ) 用 来 创建 这 棵 子 树 ， 其 代码 在 fs/proc/proc_tty.c F: 





[proc root init( ) > proc_tty_init( )] 


169 /* 
170 * Called by proc_root_init( ) to initialize the /proc/tty subtree 
171 */ 


- 669 . 


172 
173 
174 
175 
176 
177 
178 
179 
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完成 
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void __init proc_tty_init (void) 
{ 
if (!proc mkdir( tty^, 0)) 
return; 
proc tty ldisc = proc mkdir("tty/ldisc^, 0); 
proc tty driver = proc mkdir( tty/driver^, 0); 


create proc read entry (tty/ldiscs^, 

0, 0, tty ldiscs read proc, NULL) ; 
create proc read entry "tty/drivers^, 

0, 0, tty drivers read proc, NULL); 





} 


此 外 ， 如 果 系 统 不 采用 传统 的 基于 主 设备 号 /次 设备 号 的 Mev 设备 (文件 》 目录 ， 而 采用 树 状 的 设 
录 /device_tree, 则 还 要 在 proc_root_init( ) 中 创建 起 /device_tree 子 树 。 这 是 由 proc. device tree, init( ) 
的 ， 其 代码 在 fs/proc/proc, device.c P: 


[proc_root_init( ) > proc_device_tree_init( }] 
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KF 
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/proc 目录 中 创建 其 自己 的 节点 ， 从 而 在 模块 与 进程 之 间架 起 桥梁 。 可 安装 模块 可 以 通过 两 种 途径 架设 


起 与 
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/* | 
* Called on initialization to set up the /proc/device-tree subtree 
*/ ; 
void proc_device_tree_init (void) 
{ 
struct device node *root; 
if ( !have of ) 
return; 
proc device tree = proc mkdir("device-tree", 0); 
if (proc device tree == 0) 
return; 
root = find path device( /^); 
if (root == 0) { 
printk (KERN ERR "/proc/device-tree: can’t find root\n’) ; 
return} 


} 


add node(root, proc device tree); 


} 


我 们 在 这 里 并 不 关心 设备 驱动 ， 所 以 不 深入 去 看 find_device_tree( ) 和 add_node( ) 的 代码 ， 不 过 读 
这 两 个 函数 的 名 称 和 调用 参数 可 以 猜 到 它们 的 作用 。 

如 前 所 述 ， 系 统 中 的 每 个 进程 在 /proc 目录 中 都 有 个 以 其 进程 号 为 节点 名 的 子 日 录 ， 但 是 这 些 子 目 
不 是 在 系统 初始 化 的 阶段 创建 的 ， 而 是 要 到 /proc 节点 受到 访问 时 临时 地 生成 出 来 。 只 要 想 想 进程 
建 /消失 是 多 么 的 频繁 ， 这 就 毫 不 是 怪 了 。 

除 这 些 由 内 核 本 身 创建 并 安装 的 节点 以 外 ， “可 安装 模块 ”也 可 以 根据 需要 通过 proc_register( ) 在 


进程 之 间 的 桥梁 ， 其 一 是 通过 在 /dev 月 录 中 创建 一 个 设备 文件 节点 ， 其 二 就 是 在 /proc 目录 中 创建 
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EPRICE. TEE - 些 的 版 本 中 ， 可 安装 模块 通过 一 个 叫 proc_register_dynamic( ) 的 函数 来 创建 proc 
文件 ， 但 是 实际 上 可 安装 模块 并 不 比 进程 更 为 动态 ， 所 以 现在 已 经 (通过 宏 定义 ) 统一 到 了 
proc register( )。 当 可 安装 模块 需要 在 /proc 目录 中 创建 一 个 特殊 文件 时 ， 先 准备 好 它 和 白山 的 
inode operations 结构 和 file operations 结构 ， 冉 准备 “个 proc dir entry 结构 ， 然 后 调用 proc_register( ) 
将 其 “登记 ”到 /proc 月 录 中 。 这 就 是 设计 和 实现 设备 驱动 程序 的 丙种 途径 之 一 。 所 以 ， Proc_register( ) 
对 于 慨 开 发 设备 张 动 程序 的 读者 来 说 是 一 个 非常 重要 的 函数 。 我 们 在 有 关 设 备 驱动 的 章节 中 还 会 问 到 
这 个 话题 。 

这 里 要 着 重 指 出 , 通过 proc_register( ) 以 及 proc_mkdir( ) 登 记 的 是 一 个 proc, dir entry 结构 。 结 构 中 
包含 了 dentry 结构 和 inode 结构 所 需 的 大 部 分 信息 , 但 是 它 既 不 是 dentry 结构 也 不 是 inode 结构 。 同时， 
代表 者 /proc 的 数据 结构 proc. root 也 是 一 个 proc_dir_entry 结构 ， 所 以 由 此 而 形成 的 是 一 棵 以 proc. root 
为 根 的 树 ， 树 中 的 每 个 节点 都 是 个 proc dir entry 结构 。 

可 是 ， 对 于 文件 系统 的 操作 ， 如 path_walk( ) 等 等 ， 所 涉及 的 却 是 dentry 结构 和 inode 结构 ， 这 两 
个 方面 是 怎样 统一 起 来 的 呢 ? 我 们 在 前 面 看 到 ，proc 文件 系统 的 根 节点 /proc 有 inode 结构 ， 这 是 在 
proc read super( ) 中 通过 proc_get_inode( ) 分 配 并 且 根 据 proc. root 的 内 容 而 设置 的 。 同 时 ， 这 个 节点 也 
有 dentry 结构 , 这 是 在 proc_read_super( ) 中 通过 d_alloc_root( ) 创 建 的 ,并且 proc 文件 系统 的 super_block 
结构 中 的 指针 s root 就 指向 这 个 dentry 结构 (这 个 d. entry 结构 中 的 指针 d_inode 则 指向 其 node 结构 )。 
所 以 ,proc 文件 系统 的 根 节点 是 一 个 “ 止 常 ”的 节点 。 在 path, walk 中 首先 会 到 达 这 个 节点 ， 从 这 以 后 ， 
就 由 这 个 节点 在 其 inode_operations、file_operations 以 及 dentry_operations 数据 结构 中 提供 的 有 关 冰 数 
接管 了 进一步 的 操作 。 后 面 读者 会 看 到， 这 些 函 数 会 临时 为 /proc 子 树 中 其 他 的 节点 生成 出 inode 结构 
来 。 当 然 ， 其 依据 就 是 该 节点 的 proc_dir_entry 结构 。 

下 面 ， 我 们 通过 几 个 具体 的 情景 来 看 proc 文件 系统 中 的 文件 操作 。 

第 一 个 情景 是 对 /proc/loadavg 的 访问 ， 这 个 文件 提供 有 关系 统 在 过 去 1 分 钟 、5 分 钟 和 15 分 钟 内 
的 平均 负荷 的 统计 信息 。 这 个 文件 只 支持 读 操 作 ， 其 proc dir entry 结构 是 在 proc misc init( ) 中 通过 
create. proc read entry( ) 创 建 的 。 首 先 ， 当 然 是 道 过 系统 调用 open ) 打 开 这 个 文件 ， 为 此 我 们 要 重 湿 一 
下 path_walk( ) 中 的 有 关 段 洛 。 在 这 个 函数 中 ， 当 党 着 路 径 名 搜索 到 了 一 个 中 间 节 点 时 ， 数 据 结构 
nameidata 中 的 指针 dentry 指向 这 个 中 间 节 点 的 dentry 结构 ,并 企图 继续 向 前 搜索 , 而 下 -个 节点 名 则 
在 个 gstr 数据 结构 this 中 。 就 我 们 这 个 情景 而 言 ， 下 一 个 节点 已 经 十 路 径 名 中 的 最 后 iB, B 
以 转 到 了 last component 标号 处 。 企 确认 了 要 访问 的 正 是 这 个 节点 本 壬 (而 不 是 其 父 节 点 )， 并 且 节 点 名 
并 非 “.” 或 “..” 以 后 ， 就 先 遂 过 cached lookup( ) 在 内 存 中 寻找 该 节点 的 dentry 结构 ， 如 果 这 个 结构 
尚未 创建 则 进而 通过 real lookup ) 在 文件 系统 中 从 其 父 节点 开始 寻找 并 为 之 创建 起 dentry( 以 及 inode) 
结构 。 见 fs/namei.c 中 的 以 下 几 行 代码 ; 





558 dentry = cached lookup (nd->dentry, &this, 0); 

559 if (!dentry) { 

560 dentry = real lookup(nd-»dentry, &this, 0); 

561 err = PTR ERR(dentry); 

562 if (IS ERR(dentry)) 

563 break; 

564 } 

565 while (d mountpoint(dentry) && __ follow down(&nd-^mnt, &dentry)) 
566 : 


671 . 


Linux ARS RAT CCAD 


在 我 们 这 个 情景 里 , path_walk( ) 首 先 发 现 /proc 节点 是 个 安装 节点 ， 而 从 所 安装 的 super_block 结构 
中 取得 了 proc 文件 系统 根 节点 的 dentry 结构 。 如 前 所 述 ， 从 这 个 意义 上 说 这 个 节点 是 正常 的 文件 系统 
根 节点 。 所 以 ，nd->dentry 就 指向 该 节点 的 dentry 结构 ， 而 this 中 则 含有 下 一 个 节点 名 “loadavg”。 然 
后 ， 先 通过 cached_lookup( ) 看 看 下 一 个 节点 的 dentry 结构 是 个 已 经 建立 在 内 存 中 ， 如 果 没 有 就 要 通过 
real lookup() 从 设备 上 读 入 该 节点 的 日 录 项 〈 以 及 索引 节点 ) 并 在 内 存 中 为 之 创建 起 它 的 dentry 结构 。 
但 是 ， 痢 只 是 就 常规 的 义 件 系统 而 言 ,而 现在 的 节点 /proc DATER PRÉS proc 义 件 系统 内 ,情况 就 个 
同 了 ， 先 重 温 一 下 real lookup( JP 88 XV: 


268 static struct dentry * real lookup(struct dentry * parent, 
struct qstr * name, int flags) 

269 { 

281 result = d lookup(parent, name); 

282 if (!result) { 

310. } 


可 见 ， 在 内 存 中 不 能 发 现 晶 标 节点 的 dentry 结构 时 ， 到 底 怎么 办 取决 十 其 父 节 点 的 inode 结构 中 
的 指针 i_op 指向 哪 一 个 inode_operations 数据 结构 以 及 这 个 结构 中 的 函数 指针 lookup。 对 于 节点 /proe， 
它 的 i_op 指针 指向 proc_root_inode_operations, 这 是 在 它 的 proc. dir entry 结构 proc. root 中 定义 好 了 的 ， 
具体 定义 见 文 件 fs/proc/root.c: 


79 /* 

80 * The root /proc directory is special, as it has the 
81 * (pid? directories. Thus we don't use the generic 

82 * directory handling functions for that.. 

83 */ 

84 static struct file operations proc root operations - { 
85 read: generic read dir, 

86 readdir: proc root readdir, 

87 kh 

88 

89 /* 

90 * proc root can do almost nothing.. 

91 */ 

92 static struct inode operations proc root inode operations - | 
93 lookup: proc_root_lookup, 

94}; 


我 们 在 这 里 也 一 起 列 出 了 它 的 file operations 结构 。 从 中 可 以 看 出 ， 如 果 打 开 /proc 并 通过 系统 调 
FA readdir( ) 或 getdents( ) 读 取 目 录 的 内 容 ( 如 命令 “ls” 所 做 的 那样 ), 则 调用 的 函数 为 proc_root_rcaddir( ). 
对 于 我 们 这 个 情景 ， 则 只 是 继续 向 前 搜索 ， 因 市 所 调用 的 丽 数 是 proc root lookup( )， 其 代码 在 
fs/proc/root.c 中 


48 static struct dentry *proc_root_lookup (struct inode * dir, 
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struct dentry * dentry) 


49 { 

50 if (dir->i_ino == PROC ROOT INO) { /x check for safety... */ 
51 int nlink = proc root.nlink; 

52 

53 nlink t= nr threads; 

54 

55 dir-^i nlink = nlink; 

56 } 

57 

58 if (!proc lookup(dir, dentry)) 

59 return NULL; 

60 

61 return proc pid lookup(dir, dentry); 
62  ] 


参数 dir 指向 父 节 点 即 /proc 的 inode 结构 ， 这 个 inode AMM nlink 字段 也 是 特殊 的 ， 它 的 数值 
等 于 当前 系统 中 进程 〈 以 及 线程 ) 的 数量 。 由 于 这 个 数量 随时 都 可 能 在 变 ， 所 以 每 次 调用 
proc_root_lookup( ) 时 都 要 根据 当时 的 情景 予以 更 新 。 这 里 ne threads ZAR PATE ARB, RES 
系统 中 的 进程 数量 。 另 ”方面 ， 由 于 系统 中 的 进程 数量 不 会 降 到 0， 这 个 学 段 的 数值 也 不 可 能 为 0。 

/proc 日 录 中 的 和 节点 可 以 分 为 两 类 。 -类 是 节点 的 proc_dir_entry 结构 已 经 向 proc_root( ) “Zid”, 
而 挂 入 了 其 队列 中 ; 另 一 类 则 对 应 于 当前 系统 中 的 各 个 进程 而 并 不 存在 proc. dir entry 结构 。 前 者 需要 
通过 proc_lookup( ) 找 到 上 其 proc. dir entry 结构 而 设置 其 dentry 结构 并 创建 其 inode 结构 。 后 者 则 党 要 根 
据 节 点 名 (进程 号 ) 在 系统 中 找到 进程 的 task struct £54], BEULECT AY dentry 结构 并 创建 inode 24 
构 。 显 然 ，/proc/loadavg 属于 前 者 ， 所 以 我 们 继续 看 proc_lookup( ) 的 代码 ， 它 在 文件 fs/proc/generic.c 
中 : 


[proc root, lookup( ) > proc_lookup( )] 


237 /水 

238 * Don’ t create negative dentries here, return -ENOENT by hand 
239 * instead. 

240 */ 


241 struct dentry *proc lookup(struct inode * dir, struct dentry *dentry) 
242 { 


243 struct inode *inode; 

244 struct proc dir entry * de; 

245 int error; 

246 

241 error = -ENOENT; 

248 inode = NULL; 

249 de = (struct proc dir entry *) dir >u. generic ip: 
250 if (de) ( 

251 for (de = de->subdir; de ; de = de->next) { 
252 if (!de || !de->low ino) 

253 continue; 
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254 if (de->namelen != dentry->d_name. len) 

290 continue; 

256 if (!mememp(dentry-?d name. name, de-»name, de-^namelen)) | 
FAST | int ino = de->low_ino; 

258 error = -EINVAL; 

259 inode = proc get inode(dir-^i sb, ino, de); 
260 break; 

261 ) 

262 } 

263 } 

264 

265 if (inode) { 

266 dentry->d_op = &proc dentry operations; 

267 d add(dentry, inode); 

268 return NULL; 

269 } 

270 return ERR PTR(error); 

2. } 


这 里 的 参数 dir 指向 父 节 点 即 /proc 的 inode 4444, 而 dentry 则 指向 已 经 分 配 用 于 日 标 节 点 的 dentry 
结构 。 函 数 本 身 的 逻辑 是 很 简单 的 ，proc_get_inode( ) 的 代码 也 已 在 前 面 看 到 过 。 至 于 d_add( )， 则 只 是 
将 dentry 结构 挂 入 杂凑 表 队 列 ， 并 使 dentry 结构 与 inode HATE LIS, AEA SOT UP E 
已 看 到 过 。 

从 proc. lookup( ) 一 路 正常 返回 到 path_walk( ) 中 时 ， 沿 着 路 径 名 的 搜索 就 向 前 推进 了 ， 步 。 在 我 们 
这 个 情景 中 ， 路 径 名 至 此 已 经 结束 ， 所 以 path walk( ) 已 经 完成 了 操作 ， 找 到 了 日 标 节 点/proc/loadavg 
的 dentry 结构 ， 此 后 就 与 常规 的 open ) 操 作 没 有 什么 丙 样 了 。 

打开 了 文件 以 后 ， 就 是 通过 系统 调用 read( ) 从 文件 中 读 。 由 十 目标 文件 的 dentry 结构 和 和 inode 
结构 均 已 建立 ， 所 以 开始 时 的 操作 与 常规 文件 的 并 盛 不 同 ， 直 到 根据 file 结构 中 的 指针 二 op 找到 相应 
的 file operations 结构 并 进而 找到 其 函数 指针 read. 对 于 proc 文件 系统 , file 结构 中 的 人 op 指针 来 目 晶 
标 文 件 的 inode 结构 ， 而 inode 结构 中 的 这 个 指针 义 来 源 十 目标 节点 的 proc_direntry 结构 〔 见 
proc_get_inode( ) 的 代码 )。 在 proc register ) 的 代 但 中 可 以 看 出 ， 日 录 节 点 的 proc_fops fir 
proc_dir_operations; 而 “普通 ”文件 节点 (如 /proc/loadavg) 的 proc_fops 则 都 指 四 proc. file operations. 
ATLA, /proc/loadavg 的 file operations 结构 为 proc_file_operations， 这 是 在 fs/proc/generic.c Te MAY: 


36 static struct file operations proc_file operations = { 


ot llseek: proc file lseek, 

38 read: proc file read, 
39 write: proc file write, 
40}; 


可 见 ， 为 读 文 件 操作 提供 的 函数 是 proc_file_read( )。 这 是 一 个 为 proc 特殊 文件 通用 的 函数 ， 其 代码 
也 在 generic.c F: 


46 /* 4K page size but our output routines use some slack for overruns */ 
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#define PROC BLOCK SIZE (PAGE SIZE - 1024) 


static ssize t 
proc file read(struct file * file, char * buf, size t nbytes, loff t *ppos) 


{ 


struct inode * inode = file->f_dentry—>d_ inode: 


char 
ssiz 
int 

SS1Z 
char 


*page ; 


e t retval-0; 


eof=0; 


e tn, count; 


*start; 


struct proc dir entry * dp; 


dp = (struct proc dir entry *) inode-^u. generic ip; 
'(page = (char*) | get free page(GFP KERNEL))) 


P EE. 


return -ENOMEM; 


while ((nbytes > 0) && !eof) 


| 


count 


start - NULL 


if (dp-^get 


/* 


* Handle backwards compatibility with the old net 


MIN(PROC BLOCK SIZE, nbytes); 


info) { 


* routines. 


*/ 


n = dp->get_info(page, &start, *ppos, count); 


if (n € count) 


eof 


} else if (dp- read proc) { 


n = dp-^read proc(page, &start, *ppos, 


} else 
break; 


if (!start) 
/* 


* For proc files that are less than 4k 


*/ 


count, &eof, dp—data); 


{ 


start = page + **ppos; 


n -= *ppos; 


if .(n 《= 


0) 


break; 


if (n > 
T 

} 
if (n = 0) 


count) 
count; 
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95 break; /* End of file */ 

96 i-i «9-4 

97 if (retval == 0) 

98 retval = n; 

99 break; 

100 } 

101 

102 /* This is a hack to allow mangling of file pos independent 
103 * of actual bytes read. Simply place the data at page, 
104 * return the bytes, and set start’ to the desired offset 
105 * as an unsigned int. - Pau]. Russel]@rustcorp. com. au 

106 */ 

107 n -= copy to user(buf, start € page ? page : start, n); 
108 if (n == 0) { 

109 if (retval == 0) 

110 retval =  EFAULT; 

111 break; 

112 } 

113 

114 *ppos += start € page ? (long)start : n; /* Move down the file */ 
115 nbytes -= n; 

116 buf += n; 

117 retval += n; 

118 } 

119 free page((unsigned long) page); 

120 return rctval; 

Bi 4 


从 总 体 上 说 ， 这 个 函数 的 代码 并 没有 什么 特殊 ， 对 本 书 的 读 少 不 应 成 为 问题 。 但 是 从 中 可 以 看 出 ， 
具体 的 读 操 作 是 通过 巾 节点 的 proc dir entry. 结构 中 的 函数 指针 get info 或 read proc 提供 的 。 其 中 
get info 是 为 了 与 老 一 些 的 版 本 菲 容 而 保留 的 , 现在 已 改 用 read. proc. 与 常规 的 文件 系统 如 Ext2 相 比 ， 
proc 文件 系统 有 个 特殊 之 处 : 那 就 是 它 的 每 个 具体 的 文件 成 节点 都 有 共 自 己 的 文件 操作 因数 ， 而 不 像 
Ext2 那样 由 其 file operations 结构 中 提供 的 函数 可 以 用 于 同文 件 系统 的 所 有 文件 。 当 然 ， 这 是 出 于 在 
proc 文件 系统 中 每 个 节点 都 有 其 特殊 性 。 正 因为 这 样 ，proc 文件 系统 的 file, operations 结构 中 只 为 读 操 
作 提 供 … 个 通用 的 函数 proc_file_read( ), 而 由 它 再 进步 找到 并 调用 具体 全 点 所 提供 的 read. proc 函数 。 
在 前 面 proc_misc_init( ) 以 及 create_proc_read_entry( ) 的 代码 中 , 我 们 看 到 节点 /proc/loadavg 的 这 个 指针 
指向 loadavg_read_proc( )， 其 代码 在 fs/proc/proc_misc.c 中 


86 static int loadavg read proc (char *page, char *¥*start, off t off, 


87 int count, int *eof, void *data) 
88 { 

89 int a, b, c; 

90 int len; 

91 

92 a = avenrun[0] + (FIXED 1/200); 

93 b = avenrun[1] + (FIXED 1/200) ; 
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94 c = avenrun[2] + (FIXED 1/200) ; 


95 len = sprintf (page, “%d. %02d %d. %02d %d. 02d %d/%d %d\n”, 

96 LOAD INT(a), LOAD FRAC (a), 

97 LOAD INT(b), LOAD TRAC (b), 

98 LOAD INT(c), LOAD FRAC(c), 

99 nr running, nr threads, last pid); 

100 return proc cale metrics(page, start, off, count, eof, len); 
101  ] 


75 static int proc calc metrics(char *page, char **start, off t off, 


76 int count, int *eof, int len) 
1T { 

78 if (len <= off+count) *eof = 1; 

79 *start = page + off; 

80 len —= off; 

81 if (len>count) len = count; 

82 if (leng0) len = 0: 

83 return len; 

84 } 


它 的 作用 就 是 将 数组 avenrunf ] 中 积累 的 在 过 去 1 分 钟 、5 分 钟 以 及 15 分 钟 内 的 系统 平均 CPU 负 
荷 等 统计 信息 通过 sprintf )“ 打 印 ” 到 缓冲 区 页 面 中 。 这 些 平均 负荷 的 数值 是 每 隔 5 秒 钟 在 时 钟 中 断 
服务 程序 中 进行 计算 的 。 统 计 信息 中 还 包括 系统 当前 处 于 可 运行 状态 (在 运行 队列 中 ) 的 进程 个 数 
nr running 以 及 系统 中 进程 的 总 数 nr_threads， 还 有 系统 中 已 分 配 使 用 的 最 大 进程 号 last_pid. 


我 们 要 看 的 第 二 个 情景 是 对 /proc/selficewd 的 访问 。 前 面 讲 过 ，/proc/self 节点 在 受到 访问 时 ， 会 根 
据 当 前 进程 的 进程 号 连接 到 /proc 目录 中 以 此 进程 号 为 节点 名 的 月 录 节 点 ， 而 这 个 目录 节点 下 面 的 cwd 
则 义 连接 到 该 进程 的 “当前 工作 目 湛 ”所 以 ,在 这 短 短 的 路 径 名 中 就 有 两 个 连接 节点 , 而且/proc/self/ewd 
是 从 proc 文件 系统 中 的 节点 到 常规 文件 系统 《如 Ext2) 中 的 节点 的 连接 。 我 们 对 月 标 节点 即 “ 当 前 工 
作 目 录 ” 中 的 内 容 本 身 并 不 感 兴趣 , 而 只 是 对 path_walk( ) 怎 样 两 次 跨越 文件 系统 进行 路 径 搜索 感 兴 

第 一 次 跨越 文件 系统 是 当 path. walk 发 现 /proc 是 个 安装 节点 而 通过 _follow_downt ) 找 到 所 安装 的 
super block 结构 的 过 程 。 这 方面 并 没有 什么 特 折 ， 读 者 也 已 经 熟悉 了 。 找 到 了 proc 文件 系统 的 根 节点 
的 dentry 结构 以 后 ，nameidata 结构 中 的 指针 dentry 指向 这 个 数据 结构 ， 并 企图 继续 向 前 搜索 路 径 名 中 
的 下 一 个 节点 self。 由 于 这 个 节点 并 不 是 路 径 名 中 的 最 后 一 个 节点 ， 所 执行 的 代码 是 从 普 件 fsinamei.c 
中 path_walk( ) 内 的 494 行 开 始 的 : 


494 /* This does the actual lookups.. */ 

495 dentry = cached lookup(nd->dentry, &this, LOOKUP CONTINUE): 
496 if (!dentry) { 

497 dentry = real lookup(nd >dentry, &this, LOOKUP CONTINUT); 
498 err = PTR_ERR(dentry) : 

499 if (IS ERR(dentry)) 

500 brcak; 

501 } 
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就 所 执行 的 代码 本 身 而 言 ， 是 与 前 -个 情景 一 样 的 ， 所 以 最 终 也 要 通过 proc root lookup( ) 调 用 
proc_lookup( )， 试 图 为 节点 建立 起 其 dentry 结构 和 inode 结构 。 可 是 ， 如 前 所 述 ， 由 于 /proc/self 并 没有 
一 个 固定 的 proc. dir entry 结构 ， 所 以 对 proc. Jookup( ) 的 调用 必然 会 失败 “返回 非 0)， 因 而 会 进一步 
调用 proc_pid_lookup( )。 这 个 函数 的 代码 在 fs/proc/base.c 中 ， 我 们 先 看 它 的 前 一 部 分 : 


[proc_root_lookup( ) > proc_pid_lookup( )] 


907 struct dentry *proc pid lookup (struct inode *dir, struct dentry * dentry) 
908 { 


909 unsigned int pid, c; 

910 struct task struct *task; 

911 const char *name; 

912 struct inode *inode; 

913 int len; 

914 

915 pid = 0; 

916 name = dentry-?d name. name; 

917 len = dentry-?d name. len; 

918 if (len == 4 && !memcmp(name, “self”, 4)) { 
919 inode = new inode(dir-^i sb); 

920 if (tinode) 

921 return ERR PTR(-ENOMEM); 

922 inode-^i mtime = inode->i_atime = inode-^i ctime = CURRENT TIME; 
923 inode i ino = fake ino(0, PROC PID INO); 
924 inode->u. proc_i. file = NULL; 

925 inode->u. proc i. task = NULL; 

926 inode->i mode = S lFLNK|S IRWXUGO; 

927 inode->i uid = inode->i gid = 0; 

928 inode->i_size = 64; | 
929 jnode->i op = &proc, self inode operations; 
930 d add(dentry, inode): 

931 return NULL; 

932 } 


可 见 ， 当 要 找寻 的 节点 名 为 “self” 时 内 核 为 之 分 配 个 空白 的 inode 数据 结构 ， 并 使 其 
inode operations 结构 指针 i op 指向 专用 十 /proc/selt 的 proc_self_inode_operations, 这 个 结构 的 定义 存 
fs/proc/root.c 中 : 


902 static struct inode operations proc_self_inode_operations = | 
903 readlink: proc_self_readlink, 

904 follow link: proc self follow link, 

905 Hh 


为 此 类 节点 建立 的 inode EF EET SS. RR HRER pid AB 16 位 以 后 与 常数 
PROC PID INO 相 或 而 形成 的 ， 常 数 PROC PID INO 则 定义 为 2。 
从 proc_root_lookup( ) 返 回 到 path_walk( ) 中 以 后 , BER 要 检查 和 处 理 两 件 事 , 第 一 件 是 新 找到 的 市 
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点 是 否 为 安装 点 : 第 一 件 就 是 它 是 否 是 一 个 连接 节点 。 这 正 是 我 们 在 这 里 所 关心 的 ， 因 为 /proc/self 就 
是 个 连接 节点 。 继 续 看 path walk( ) 中 的 下 面 两 行 (fs/namei.c): 





514 if (inode-^i op->follow link) { 
515 err = do follow link(dentry, nd); 


对 于 连接 节点 ， 通 过 其 inode 结构 和 inode operations. 结构 提供 的 函数 指针 follow. link Jy dE 0. Bt 
/proc/self 而 言 ， 由 于 proc_pid_lookup( ) 的 执行 ， 其 函数 指针 follow link. 已 经 指向 了 
proc self follow_link()， 其 代码 在 文件 fs/proc/root.c F: 


895 static int proc_self_follow_link (struct dentry *dentry, 
struct nameidata *nd) 


896 { 

897 char tmp[30] ; 

898 sprintf (tmp, “%d”, current->pid) ; 
899 return vfs follow link (nd, tmp); 
900 } 


它 通 过 vfs follow link( ) 寻 找 以 当前 进程 的 pid 的 字符 串 为 相对 路 径 名 的 节点 ， 找 到 后 就 使 
nameidata 结构 中 的 指针 dentry 指向 它 的 dentry 结构 。 读 者 已经 看 到 过 vfs follow link( ) 的 代码 ， 这 里 
器 不 午 复 了 。 只 是 要 指出 ， 在 vfs_follow.link( ) 中 将 会 递归 地 调用 path_walk( ) 来 寻找 连接 的 目标 节点 ， 
所 以 义 会 调用 其 父 节 点 /proc 的 lookup 函数 , 即 proc_root_lookup( ), 不 同 的 只 是 这 次 寻找 的 不 是 “self”， 
而 是 当前 进程 的 pid 字符 串 。 这 一 次 ， 在 proc root lookup( ) 中 对 proc lookup( ) 的 调用 同样 会 因为 在 
proc root 的 subdir 队列 中 找 不 到 相应 的 proc dir entry. 结构 而 失败 ， 所 以 也 要 进一步 调用 
proc pid lookup( ) 鼠 找 《〈《 见 上 面 proc_root_lookup( ) 的 代码 )。 可 是 ， 这 一 次 的 节点 名 就 不 是 "self" 了 ， 
刚 调用 的 proc_self_follow_link( ) 已 经 将 当前 进程 的 进程 号 转化 为 字符 串 形 式 , 所 以 在 proc_pid_lookup( ) 
中 所 走 的 路 线 也 不 同 了 ， 我 们 看 这 个 函数 的 后 半 部 : 


{proc_root_lookup( ) > proc_pid_lookup( )] 


933 while (len— > 0) 1 

934 c = *name - ’0’; 

935 name+t+; 

936 if (c > 9) 

937 goto out; 

938 if (pid >= MAX MULBY10) 
939 goto out; 

040 pid *- 10; 

94] pid += ec; 

942 if (!pid) 

943 goto out; 

944 } 

945 

946 read lock(&tasklist lock); 
947 task = find task by pid(pid); 
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948 if (task) 

949 get task struct (task) ; 

950 read unlock (&tasklist_ lock); 

951 if (task) 

952 goto out; 

953 

954 inode = proc pid make inode(dir-^i sb, task, PROC PID INO); 
955 

956 free task struct(task); 

957 

958 if (!inode) 

959 goto out; 

960 inode-^i mode = S IFDIR;S IRUGO|S IXUGO; 
961 inode-»i op = &proc base inode operations; 
062 inode->i_ fop = &proc base operations; 

963 inode-?i_nlink = 3; 

964 inode->i flags|-S IMMUTABLE: 

965 

966 dentry->d_op = &pid base dentry operations; 
967 d add(deniry, inode); 

968 return NULL; 

969 out: 

970 return ERR PTR(-ENOENT) ; 

971  ] 


这 个 函数 将 节点 名 转换 成 -个 无 符号 整数 ， 然 后 以 此 为 pid. 从 系统 中 寻找 是 否 仔 仁 相应 的 进程。 
如 果 找 到 了 相应 的 进程 ， 就 通过 proc_pid_make_inode( ) 为 之 创建 -个 inode 结构 ， 并 初始 化 已 经 分 配 
的 dentry 结构 。 这 个 函数 的 代码 在 文件 fs/proc/base.c 中 ， 我 们 就 不 看 了 。 同 时 ， 还 要 使 inode 结构 中 
的 inode_operations 结构 指针 i op 指向 proc_base_inode_operations， 而 file operations 结构 指针 i_fop Jl 
指向 proc_base_operations。 此 外 ， 相 应 dentry 结构 中 的 指针 d_op 则 指 网 pid_base_dentry_operations. 
从 这 里 也 可 以 看 出 ， 在 proc 文件 系统 中 几乎 每 个 节点 都 有 其 自己 的 file operations 结构 和 
inode_operations 结构 。 

于 是 ， 从 proc_follow_link( ) 返 同时 ，nd->dentry 已 指向 代 表 者 当前 进程 的 日 孙 节 点 的 dentry 结构 。 
这 样 ， 当 path_walk( ) 开 始 新 一 轮 的 循环 时 ， 就 从 这 个 节点 〈 而 不 是 /proc/self) 继续 向 前 搜索 了 。 下 c 
个 节点 是 “cwd” 这 -次 所 搜索 的 节点 已 经 是 路 径 名 中 的 最 后 一 个 节点 ， 所 以 如 间 第 一 个 情 鼠 中 那样 
转 到 了 标号 为 last_component 的 地 方 。 但 是 同样 也 是 在 real_lookup( )"P3I8 EXE 2 17 550 inode operations 
结构 中 的 lookup 函数 指针 执行 实际 的 操作 ， 店 坝 在 这 个 数据 结构 就 是 proc_base_inode_operations， 定 
XT fs/proc/base.c: 


881 static struct inode operations proc base inode operations - { 
882 lookup: proc base lookup, 
883 |}: 


函数 proc. base, lookup( ) 的 代码 中 在 同文 件 fs/proc/base.c 中 : 
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783 static struct dentry *proc_base_lookup (struct inode *dir, struct dentry *dentry) 
784 { 


185 struct inode *inode; 

786 int error; 

787 struct task struct *task = dir >u. proc_i. task; 

188 struct pid entry *p; 

789 

790 error = -ENOENT; 

79] inode - NULL; 

192 

193 for (p = base stuff; p->name; ptt) { 

794 if (p->len != dentry—>d_name. len) 

795 continue; 

796 if (!memcmp(dentry->d_name. name, p-»name, p-—>len)) 
197 break; 

798 } 

799 if (!p->name) 

800 goto out; 

801 

802 error = —EINVAL: 

803 inode - proc pid make_inode(dir->i_sb, task, p-type): 
804 if (! inode) 

805 goto out: 

806 

807 inode-^i mode = p-^mode; 

808 /* 

809 * Yes, it does not scale. And it should not. Don't add 
810 * new entries into /proc/<pid>/ without very good reasons. 
811 */ 

812 switch(p->type) { 

813 case PROC PID FD: 

814 inode >i_nlink = 2; 

815 inode->i_op = &proc fd inode operations; 

816 inode->i_fop = &proc fd operations; 

817 break; 

818 case PROC PID EXE: 

819 inode~>1 op = &proc pid link inode operations; 
820 inode->u. proc i.op.proc get link = proc exe link; 
821 break; 

822 case PROC PID CWD: 

823 inode-^i op = &proc pid link inode operations; 
824 inode 2u.proc i.op.proc get link = proc cwd link; 
825 break; 

826 case PROC_PID_ROOT: 

827 inode->i_op = &proc pid link inode operations; 
828 inode-^u. proc i.op.proc get link = proc root link; 
829 break; 

830 case PROC PID ENVIRON: 
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831 inode->i_fop = &proc info file operations; 

832 inode->u. proc i.op. proc read = proc pid environ; 
833 break; 

834 case PROC PID STATUS: 

835 inode->i fop = &proc info file operations; 

836 inode->u. proc i.op. proc read = proc pid status; 
837 break; 

838 case PROC PID STAT: 

839 inode-^i fop = &proc info file operations; 

840 inode-^u. proc i.op. proc read = proc pid stat; 
841 break; 

842 case PROC PID CMDLINE: 

843 inode->i fop = &proc info file operations; 

844 inode->u. proc i.op.proc read = proc pid cmdline; 
845 break; 

846 case PROC PID STATM: 

847 inode->i_fop = &proc info file operations; 

848 inode-^u. proc. i. op. proc. read = proc pid statm; 
849 break; 

850 case PROC PID MAPS: 

851 inode->i fop = &proc maps operations; 

852 break; 

853 #ifdef CONFIG SMP 

854 case PROC PID CPU: 

855 inode->i_fop = &proc info file operations; 

856 inode->u. proc. i. op. proc. read = proc pid cpu; 
857 break; 

858 #endif 

859 case PROC PID MEM: 

860 inode->i_op = &proc mem inode operations; 

861 inode->i fop = &proc mem operations; 

862 break; 

863 default: 

864 printk("procfs: impossible type (%d)”, p~>type) ; 
865 iput (inode) ; 

866 return ERR _PTR(-EINVAL) ; 

867 } 

868 dentry->d_ op = &pid dentry operations; 

869 d add(dentry, inode); 

870 return NULL; 

871 

812 out: 

873 return ERR PTR(error); 

874 } 


这 里 用 到 一 个 全 局 性 的 数组 base, stuff[ ]， 有 关 的 定义 在 fs/proc/base.c 中 给 出 : 
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477 struct pid entry { 


478 int type; 

479 int len; 

480 char *name; 

48] mode_t mode; 
482}; 

483 

484 enum pid directory inos f 
485 PROC PID INO = 2, 
486 PROC PID STATUS, 
481 PROC PID MEM, 

488 PROC PID CWD, 

489 PROC PID ROOT, 
490 PROC PID EXE, 

491 PROC PID FD, 

492 PROC PID ENVIRON, 
493 PROC PTD CMDLINE, 
494 PROC PID STAT, 
495 PROC PID STATM, 
496 PROC_PID_MAPS, 
497 PROC_PID_CPU, 

498 PROC PID FD DIR = 0x8000, /* Ox8000-Oxffff */ 
499 ) 

500 


501 #define E(type, name, mode) {(type), sizeof (name) -1, (name), (mode) } 
502 static struct pid entry base stuff[ ] = { 








503 E(PROC PID FD, fd’, S IFDIR|S IRUSR|S IXUSR), 
504 E(PROC PID ENVIRON, “environ”, S IFREG|S IRUSR), 

505 E(PROC PiD STATUS, “status”, S IFREG|S IRUGO), 

506 E(PROC PTD CMDLINE, “cmdline”, $S IFREG|S IRUGO), 

507 E (PROC. PID STAT, “stat”, S IFREG|S IRUGO), 

508 E(PROC PID STATM, "statim, S IFREG|S IRUGO), 

508 Hifdef CONFIG SMP 

510 E(PROC PID CPU, “cpu”, S_IFREG!S TRUGO), 

511 #endif 

512 E (PROC_PID MAPS, “maps”, S IFREG|S_IRUGO), 

513 E(PROC PID MEM, “mem”, S_IFREG S_IRUSR|S_IWUSR), 
514 E(PROC PID CWD, “cwd”, S_IFLNK|S IRWXUGO), 

515 E {PROC PID ROOT, “root”, S IFLNK|S TRWXUGO), 

516 E (PROC PID EXE, “exe”, S IFLNK|S 1RWXUGO), 

517 {0, 0, NULL, 0j 

518- dh 


519 &undef E 


这 样 ， 在 proc base lookup( ) 中 只 要 在 这 个 数组 中 逐 项 比 对 ， 就 可 以 找到 “cwd” 所 对 应 的 类 型 ， 
即 相应 inode 号 中 的 低 16 位 ， 以 及 “文件 ”的 横 式 。 然 后 ， 在 基于 这 个 类 型 的 switch 语句 中 ， 对 于 所 
创建 的 inode 结构 进行 具体 的 设置 。 对 于 代表 着 进程 的 某 方面 属性 或 状态 的 这 些 inode 结构 ， 其 union 
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部 分 被 用 作 一 个 proc_inode_info 结构 proc_i， 其 定义 见于 include/linux/proc_fs_i.h: 


1 struct proc_inode_info { 

2 struct task struct *task; 

3 int type; 

4 union { 

5 int (proc get link) (struct inode *, struct dentry **, struct vfsmount **); 
6 int (kproc read) (struct task struct *task, char *page); 

7 } op: 

8 struct file *file; 

9 


ie 


结构 中 的 指针 task 在 proc_pid_make_inode( ) 中 设置 成 指向 inode 结构 所 代表 进程 的 task_struct Zi 
构 。 

对 于 节点 “cwd”， 要 特别 加 以 设置 的 内 容 有 两 项 。 第 一 是 将 inode 结构 中 的 指针 i op 设置 成 指 问 
proc_pid_link_inode_operations 数据 结构 ; 第 二 是 将 上 述 proc_inode_into 结构 中 的 函数 指针 proc. get. link 
指向 proc_cwd_link( )。 此 外 ， 就 没有 什么 特殊 之 处 了 。 数 据 结构 proc pid link inode operations 定义 于 
fs/proc/base.c 中 : 


472 static struct inode operations proc pid link inode operations = | 


473 readiink: | proc pid readlink, 
474 follow link: proc pid follow link 
475 }; 


从 proc_base_lookup( ) 经 由 real_lookup( EEIE] path_walk( BY, nameidata 结构 中 的 指针 dentry 已 
经 指向 了 这 个 特定 “cwd” 节 点 的 dentry 结构 。 但 是 接着 同样 要 受到 对 其 inode 结构 中 的 i_op 指针 以 及 
相应 inode_operations 结构 中 的 指针 follow link 的 检验 ， 看 path_walk( ) 中 的 相关 代 公 fs/mamei.e): 


567 inode = dentry->d_inode; 

568 if ((lookup flags & LOOKUP FOLLOW) 

569 && inode && inode-^i op && inode >i op— follow link) | 
570 err = do follow link(dentry, nd); 


读者 刚才 已 经 看 人 到， 这 个 inode 结构 的 指针 follow link 非 0， 并 且 指 向 proc ewd link( )， 其 代码 
4t fs/proc/base.c 中 : 


85 static int proc cwd link(struct inode *inode, struct dentry **dentry, 
struct vfsmount **mnt) 

86 { 

87 struct fs_ struct *fs; 

88 int result = -ENOENT; 

89 task lock (inode->u. proc. i. task) ; 

90 fs = inode-?u. proc i. task->fs; 

91 if (fs) 

92 atomic inc(&fs—>count) ; 
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93 task_unlock(inode->u. proc i. task); 
94 if (fs) | 

95 read lock (&fs-»lock); 

96 *mnt = mntget (fs—>pwdmnt) ; 
97 *dentry = dget (fs—>pwd) ; 
98 read unlock (&fs-»lock); 

99 result = 0; 

100 put fs struct (fs); 

101 } 

102 return result; 

103} 


如 前 所 述 ， 节 点 的 inode 中 的 union HE 个 proc_inode_info 结构 ,其 中 的 指针 task 指向 相应 进程 
的 task struct 结构 ， 进 而 可 以 得 到 这 个 进程 的 fs struct 结构 ， 而 这 个 数据 结构 中 的 指针 pwd 即 指 问 该 
进程 的 “当前 工作 日 录 ” 的 dentry 结构 ， 同 时 指针 pwdmnt 指向 该 目录 所 在 设备 安装 时 的 vfsmount 结 
构 。 注 意 ， 这 里 的 参数 dentry 和 mnt 都 是 双重 指针 ， 所 以 第 96 行 和 第 97 行 实际 ET nameidata 
结构 中 的 dentry 和 mnt 两 个 指针 。 这 样 , 当 从 proc_cwd_link( ) 经 由 do_ftollow_link() 返 回 到 path, walk( ) 
中 时 ，nameidata 结构 中 的 指针 已 经 指向 最 终 的 月 标 ， 如 当前 进程 的 当前 工作 日 录 。 从 这 以 后 的 操作 就 
与 常规 的 文件 系统 完全 一 样 了 。 从 这 个 情景 可 以 看 出 ， 对 十 proc 文件 系统 路 的 一 些 路 径 ， 共 有关 的 数 
据 结 构 以 及 这 些 数 据 结构 之 间 的 连接 是 非常 动态 的 ,每 次 都 要 在 path_walk( ) 的 过 程 中 逐 层 地 临时 建立 ， 
而 不 像 在 常规 文件 系统 如 Ext2 中 那样 相对 静态 。 

通过 这 两 个 情景 ， 读 者 应 该 已 经 对 proc 文件 系统 的 文件 操作 有 了 基本 的 了 解 利 理解 ， 自 己 不 妨 髓 
读 几 段 代码 以 加 深 理 解 ， 我 们 建议 读者 读 一 下 对 /proc/meminfo 和 /proc/self/maps 的 访问 ， 因 为 这 不 仅 可 
以 加 深 对 proc 文件 系统 的 理解 ， 还 可 以 帮助 巩固 对 存储 管理 的 理解 。 
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6.1 概述 


对 于 多 用 户 、 多 进程 的 操作 系统 来 说 ， 进 程 间 通 信 《IPC) 是 一 项 非常 重要 、 甚 至 必 不 可 少 的 基本 
手段 和 设施 。 在 一 个 多 进程 操作 系统 所 提供 的 运行 环境 下 ， 可 以 通过 遇 种 不 同 的 途径 ， 或 者 说 采用 两 
种 不 同 的 策略 ， 来 建立 起 复杂 的 大 型 应 用 系统 。 一 种 途径 是 通过 一 个 孤立 的 、 大 型 的 、 复 杂 的 进程 提 
供 所 需 的 全 部 功能 ， 盟 一 种 途径 则 是 通过 由 若干 互相 联系 的 、 小 型 的 、 相 对 简单 的 进程 所 构成 的 组 合 
来 提供 所 址 的 功能 。 早 期 的 操作 系统 往往 倾向 于 前 者 ， 而 Unix 及 其 衍生 的 各 种 系统 则 倾向 于 后 者 。 这 
种 基本 方法 和 策略 的 改变 下 是 Unix 操作 系统 在 程序 没 计 领域 中 引起 革命 性 转变 的 结果 。 相 比 之 下 ， 后 
者 这 种 方法 上 共有 很 大 的 好 处 : 

e 首先 ， 这 种 途径 使 应 咱 软 件 更 加 模块 化 ， 每 个 进程 所 执行 的 程序 可 以 分 别 地 设计 、 实 现 、 调 试 

和 维护 。 

e 其 次 ， 由 于 每 个 进程 前 有 其 独立 的 地 址 空间 ， 而 相互 间 的 通信 和 则 通过 明确 定义 的 进程 间 通 信 手 
段 和 界 而 来 完成 ， 因 而 使 得 各 个 进程 都 得 到 保护 ， 在 相当 程度 上 排除 了 互相 干扰 的 可 能 人 性， 从 
而 增加 了 系统 的 可 靠 性 和 稳定 性 。 

e 而 且 ， 这 种 途径 还 改善 了 系统 规模 的 可 扩充 性 。 例如， 在 多 处 理 器 系统 中 ， 这 些 进程 可 以 在 不 
回 的 处 理 器 上 运行 。 推 而 广 之 ， 这 些 进程 还 可 以 在 多 台 计 算 机 上 运行 ， 并 上 及 这些 计 算 机 并 不 非 
得 是 在 同一 地 域 ， 从 而 形成 “分 布 式 处 钊 ”的 概念 。 

e 最 后 ,就 像 用 7 个 音符 可 以 组 合 出 无 数 动听 的 旋律 … 样 ， 几 若干 可 执行 程序 也 串 以 灵活 地 搭建 
出 很 复杂 、 蕊 能 很 强 的 新 应 用 。 从 这 个 角度 来 在， 这 种 途径 既 促 进 了 软件 的 模块 化 ， 也 提高 了 
软件 的 “ 复 用 性 ”。 

当然 ， 取 得 这 些 好 处 也 是 有 代价 的 ， 这 种 途 行 也 有 缺点 。 首 先 ， 从 全 局 来 看 ， 这 种 途径 蓝 占 用 更 
多 的 资源 ， 并 且 增 加 了 CPU 运行 时 的 系统 开销 ， 使 得 总 体 上 的 运行 效率 可 能 会 有 所 卜 降 。 其 次 ， 由 于 
每 个 进程 都 独立 地 接受 调度 ， 使 得 进程 运行 的 时 序 存 某 些 情况 下 成 为 问题 ， 需 要 通过 一 些 特 殊 的 进程 
间 遂 信和 手段 才能 保持 同步 。 最 后 ， 这 种 途径 要 求 操作 系统 提供 充分 的 进程 间 通 信和 的 于 段 和 设施 。 但 是 ， 
这 些 都 上 只 是 前 进 道路 上 所 遇 到 的 问题 。 相 比 之 卜 ， 这 种 途径 的 优点 远 远 超过 其 缺点 ， 而 且 随 着 硬件 技 
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术 的 进步 〈 如 内 存 容量 、 处 坦 器 述 度 等 等 )， 第 一 条 缺点 实际 上 已 是 微不足道 上 了 上。 事实 上 ， 随 者 应 用 软 
件 的 日 益 复 杂 和 规模 的 有 益 庞 大 ， 通 过 孤立 、 大 型 、 复 杂 的 单 进 程 途 径 来 实现 应 用 所 需 的 功能 往往 已 
经 不 现实 了 。 

由 此 可 见 ， 进 程 问 通 人 在 现代 操作 系统 中 起 者 全 关 重 要 的 作用 。 呈 以 这 样 说 ， 没 有 Unix 的 进程 间 
通信 手段 就 不 会 有 所 谓 “Unix HSE, UD Unix 独特 的 运行 坏 境 和 程序 设计 环境 。 从 劝 PARRA, 
同 任何 一 种 新 技术 的 出 现 一 样 ，“ 互 人 们 认识 和 到 上 述 途 径 的 优越 性 及 其 对 进程 间 通 信 手 段 的 需求 ， 这 
IF Ba xg e NASA. 

那么 , Unix (从 而 Linux) 向 应 用 软件 提供 一 些 什么 样 的 进程 间 遂 信 手 段 呢 ? 这 时 也 有 个 发 展 过 程 。 
早期 的 Unix 提供 了 以 下 一 些 手段 : 

e 管道 (Pipe)。 父 进程 与 子 进程 之 问 ， 或 者 两 个 兄弟 进程 乙 间 ， 可 以 通过 系统 调用 建立 起 个 单 

向 的 通信 管道 。 但 是 ， 这 种 管道 只 能 由 父 进 称 来 建立 ， 所 以 对 于 子 进程 来 说 是 静态 的 ， 与 牛 俱 
来 的 。 管 道 两 端的 进程 各 自 都 将 该 答 道 视 作 一 个 文件 。 一 个 进程 往 管道 中 写 的 内 容 由 另 一 个 进 
程 从 管道 中 读 取 ， 通 过 管道 传递 的 内 容 遵循 “先入 先 出 ”《FIFO ) 的 规则 。 每 个 管道 者 是 单 癌 
的 ， 需 要 双 剖 通信 时 就 此 建立 起 肉 个 管道 。 

e 信号 (Signal). RA BATA 4 章 中 看 到 过 信号 的 运用 。 严 格 说 来 ，signal 这 种 手段 NEE 
为 进程 间 通 信和 而 设置 的 ， 它 也 用 于 内 核 与 进程 之 间 的 通信 《不 过 内 核 只 能 向 进程 发 送信 号 ， 而 
不 能 接收 信号 )。 一 般 来 说 ，signal 是 对 “中 断 ” 这 种 概念 在 软件 层次 上 的 模拟 〈 所 以 亦 称 “ 软 
中 断 飞 ， 其 中 信号 的 发 送 者 相当 于 中 断 源 ， 而 接收 者 则 相当 于 处 理 器 ， 所 以 必须 是 个 进程 。 
就 像 在 多 处 理 器 系统 中 个 处 理 器 通常 都 能 向 另 一 -个 处 理 器 发 出 中 断 请 求 “ 样 ， 一 个 进程 也 可 
以 向 其 他 进程 发 出 信号 ， 此 时 信号 就 成 了 一 种 进程 间 通 信 的 于 段 。 

e 跟踪 (Trace). :个 进程 可 以 通过 系统 调用 ptrace( ) 读 / 写 其 了 进程 地 址 字 间 中 的 内 容 ， 从 而 达 
到 跟踪 子 进程 执行 的 目的 ，。 

这 几 项 进程 间 道 信 手 段 都 只 能 用 十 父 进 程 与 子 进程 之 间 ， 或 者 其 个 兄弟 进程 之 间 。 信 号 的 使 用 虽 
然 几 未 限制 在 父 了 进程 之 间 ， 但 发 送信 号 时 需要 用 到 对 方 的 pid. 而 一 般 只 有 父子 进程 之 间 才 知道 对 方 
的 pid， 所 以 实际 上 还 是 只 能 用 于 父子 进程 之 间 。 另 方面， 对 寸 子 进 程 来 说 管道 机 制 是 静态 的 ， 跟踪 
则 是 单 向 的。 在 实际 使 用 中 ， 常 党 需要 企 并 非 这 些 “近亲 ”的 进程 之 间 动 态 地 建立 通信 管道 ， 所 以 后 
来 又 增设 了 一 种 新 的 管道 : 

e 命名 管道 (named pipe)。 命 名 管道 以 FIFO 文件 的 形式 出 现在 文件 系统 中 ， 所 以 任何 进程 部 可 

以 通过 使 用 其 文件 名 来 “打开 ”该 管道 ， 然 后 进行 读 写 。 这 样 ， 管 道 的 使 用 融 不 册 局 限于 “ 近 
亲 ” 之 间 了 。 从 这 个 意义 上 说 ， 命 名 管道 是 管道 的 推广 。 


在 AT&T 的 Unix 系统 V 中 ， 主 归 为 了 更 好 地 支持 商业 应 用 中 的 “事务 处 理 ”， 义 增 如 了 三 种 进程 
TR, BG WHAE “System V IPC”: 

e 报 文 (Message) 队列 。 一 个 进程 吕 以 通过 系统 调用 设立 一 个 报 文 队列 ， 然 后 任何 进程 部 可 以 
道 过 系统 调用 向 这 个 队列 发 送 “ 消 入 ”或 从 队列 接收 “消息 ”从 而 以 进程 间 “ 报 文 传递 ” 
(Message Passing). BEN SCHO f - 

e 共享 内 存 。 一 个 进程 可 以 通过 系统 调用 设立 一 片 共享 内 存 区 ， 然 后 其 他 进程 就 可 以 通过 系统 调 
FA TER RP Pk fe Me, a BRA AD lel … 样 读 / 写 该 共享 区 间 
了 。 共 享 内 存 是 .种 快速 而 有 效 的 进程 问 通讯 于 段 ， 但 是 并 不 像 其 他 一 些 手 段 那 样 ， 吕 以 在 一 
昌 写 入 后 就 唤醒 止 在 睡眠 中 等 待 读 取 的 进程 ， 所 以 常常 要 与 其 他 手段 配合 使 用 。 
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e 信号 量 (semaphore)。 第 4 章 中 讲 过 内 核 中 使 用 的 信号 量 机 制 ， 而 系统 V 进程 问 通信 于 段 中 的 
信 与 量 则 将 这 种 机 制 推 广 到 了 用 户 空间 。 


Ej AT&T 对 Unix 让 有 进程 问 通信 于 段 的 扩充 与 增强 相 平行 ， 在 BSD Unix 中 也 对 此 作 了 重要 的 扩 
充 : 
€ ff (Socket). MiB XII f8 EZoK Ut. Socket 与 命名 管道 是 很 相似 的 ， 但 其 重 此 之 处 在 于 Socket 
不 仅 可 以 用 来 实现 同一 台 计 算 机 上 的 进程 间 通 信 ， 还 可 以 用 米 实 现 分 布 十 不 同 计 算 机 中 的 进程 
通过 网 络 进行 的 通信 。 这 样 ， 就 提供 了 一 种 统 qu. SO 般 的 进程 问 通信 和 模式。 如 果 说 “ 命 
名 管道 ”把 “管道 ”这 种 原 米 只 适用 近亲 的 手段 推广 到 了 同一 台 计 算 机 中 的 任意 进程 之 问 ， 则 
Socket 又 进步 将 其 推广 至 计算 机 网 络 中 的 任意 进程 之 间 。 从 这 个 意义 上 讲 ，S$ocket 成 了 最 一 
般 、 最 普遍 适用 的 进程 间 通 信 手 段 和 机 制 。 事 实 上 ， 现 在 有 些 Unix 系统 中 的 管道 机 制 也 反 过 
来 改 成 通过 Socket 来 实现 。 
上 你 的 这 些 进 程 间 通信 机 制 都 由 Linux“ 兼 容 并 蓄 ” 继承 了 下 来 。 事 实 上 这 些 机 制 大 都 是 在 “可 移 
植 操作 系统 接口 ”标准 POSIX. 中 规定 村 具备 的 。 此 外 , 在 Unix 发 展 过 程 中 也 出 现 过 一 些 其 他 的 进程 
间 遂 信 机 制 ， 但 并 没有 为 Linux 所 采用 ， 我 们 就 不 作 介 绍 了 。 
由 于 篇 幅 的 反 因 ， 我 们 把 进程 问 通信 分 成 第 6 章 、 第 7 章 商 章 。 本 章 主 要 介绍 早期 Unix 的 通信 机 
制 以 及 System V IPC; 下 一 草 “ 基 于 Socket 的 进程 间 通 信 ” 则 集中 介绍 插口 ‘(Socket)。 


6.2 管道 和 系统 调用 pipe( ) 


管道 机 制 的 主体 泵 系统 调用 pipe( ), 但 是 由 pipe( ) 所 建立 的 管道 的 由 端 都 在 同 -进程 中 , 所 以 必须 
在 fork( ) 的 配合 下 ， 才 能 在 父子 进程 之 间或 两 个 子 进程 之 问 建立 起 进程 间 的 通信 管道 。 

我 们 先 来 看 系统 调用 pipe( )。 

由 才 管 道 黄 端 都 是 以 〈 已 打开 ) 文件 的 形式 出 现 仁 柑 关 的 进程 中 ， 在 具体 实现 上 也 是 作为 医 名 文 
件 米 实现 的 ， 所 以 pipe( ) 的 代码 与 文件 系统 密切 相关 。 

先 看 系统 调用 的 入 LI sys_pipe(), HIRES arch/i386/kernel/sys_i386.c P. 


29 /* 

26 * sys pipe( ) is the normal C calling standard for creating 
27 * a pipe. Tt's not the way Unix traditionally does this, though. 
28 */ 

29 asmlinkage int sys pipe(unsigned long * fildes) 

30 { 

31 int fd[2]; 

32 int error; 

33 

34 error = do pipe (fd); 

35 if (lerror) { 

36 if (copy to user (fildes, fd, 2*sizeof(int))) 

37 error = -EFAULT; 

38 } 

39 return error; 
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40 } 


这 里 出 do_pipe( ) 建 立 起 一 个 管道 ,通过 作为 调用 参数 的 数组 fap PEERKE a FST 
开 文件 号 ， 髓 由 copy_to_user( ) 将 数组 fd[ ] 复制 到 用 户 空间 。 显 然 ，do_pipe( ) 是 这 个 系统 调用 的 主体 ， 
其 代码 在 fs/pipe.c 中 ， 我 们 分 段 阅读 : 


[sys_pipe( ) > do. pipe( )] 


509 int do pipe (int *fd) 


510 { 

dll struct qstr this; 

512 char name[32]; 

513 struct dentry *dentry; 
514 struct inode ** inode; 

515 struct file *fl, *f2; 

516 int error; 

517 int i,j; 

518 

519 error = -ENFILE; 

520 fl = get empty_filp( ); 
521 if (!f1) 

522 goto no files; 

523 

524 f2 = get empty filp( ); 
525 if (!f2) 

526 goto close fl; 

527 

528 inode = get pipe inode( ) ; 
529 if (tinode) 

530 goto close f12; 

531 

532 error = get unused fd( ); 
533 if (error < 0) 

534 goto close f12 inode; 
535 1 = error; 

536 

537 error = get unused fd( ); 
538 if (error < 0) 

539 goto close f12 inode i; 
540 j » error; 

541 


在 “文件 系统 ”一 章 中 读者 已 经 看 到 ， 进 程 对 每 个 已 打开 文件 的 操作 都 是 通过 一 个 file 数据 结构 
进行 的 ， 只 有 在 由 同一 进程 按 相 同 模式 重复 打开 同一 文件 时 才 共 享 同 - -个 数据 结构 。 一 个 管道 实际 上 
就 是 - NICHE (只 存在 于 内 存 中 〉 的 文件 ， 对 这 个 文件 的 操作 要 道 过 两 个 已 打开 文件 进行 ， 分 别 代表 
该 管道 的 黄 端 。 虽 然 最 初创 建 时 ”个 管道 的 两 端 都 在 同一 进程 中 ， 但 是 在 实际 使 用 时 却 总 契 分 剂 在 两 
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个 不 同 的 进程 (通常 是 父 、 子 进程 》 中 ， 所 以 ， 管 道 的 两 端 不 能 共享 同一 个 file 数据 结构 ， 而 此 为 之 
各 分 配 一 个 file 数据 结构 。 代 码 中 520 行 和 524 行 调 用 get_empty_filp( ) 的 目的 束 是 为 管道 的 两 端 身 和 
f2 各 分 配 一 个 file 数据 结构 。get_empty_filp( ) 的 代码 以 及 file 结构 的 定义 可 参看 “文件 系统 ”一 章 ， 这 
里 不 再 重复 。 只 是 要 指出 ， 这 个 数据 结构 只 是 代表 着 一 个 特定 进程 对 某 个 文件 操作 的 现状 ， 而 并 不 代 
表 这 个 文件 本 号 的 状态 。 例 如 ， 结 构 中 的 成 分 f pos 就 表示 该 进程 在 此 文件 中 即将 进行 读 / 写 的 起 始 位 
置 ， 当 不 同 的 进程 分 别 打 开 同 一 文件 进行 读 写 时 ， 最 初 此 位 置 都 是 0， 以 后 就 可 能 各 不 相同 了 。 

同时 ,每 个 文件 都 是 由 一 个 inode 数据 结构 代表 的 。 虽 然 一 个 管道 实际 上 是 一 个 无 形 的 文件 ， 它 也 
得 要 有 一 个 inode 数据 结构 。 由 于 这 个 文件 在 创建 管道 之 前 并 不 存在 , 所 以 需 此 在 创建 管道 时 临时 创建 
起 一 个 inode 结构 ， 这 就 是 代码 中 第 528 行 调用 get_pipe_inode( ) 的 目的 。 实 际 上 ， 创 建 一 个 管道 的 过 
程 主要 就 是 创建 这 么 一 个 文件 的 过 程 。 函 数 get pipe inode( ) 的 代码 在 文件 〈Ppipe.c) TP: 


[sys_pipe( ) > do pipe( ) > get pipe inode( )] 


476 static struct inode * get_pipe_inode (void) 


477 { 

478 struct inode *inode = get empty inode( ); 

479 

480 if (!inode) 

48] goto fail_inode; 

482 

483 if (!\pipe_new (inode) ) 

484 goto fail iput; 

485 PIPE READERS (*inode) = PIPE WRITERS(*inode) = 1; 
486 inode-»i fop = &rdwr pipe fops; 

487 inode-^i sb = pipe mnt-?mnt sb; 

488 

489 /* 

490 * Mark the inode dirty from the very beginning, 
49] * that way it will never be moved to the dirty 
492 * list because "mark inode dirty( )" will think 
493 * that it already is on the dirty list. 

494 */ l 

495 inode~>i_state = I DIRTY; 

496 inode->i_mode = S [FIFO | S IRUSR ; S IWUSR; 

497 inode->i_uid = current—>fsuid; 

498 inode->i_ gid = current—>fsgid: 

499 inode->i atime = inode->i mtime = inode->i ctime = CURRENT TIME; 
500 inode->i blksize = PAGE SIZE; 

501 return inode; 

502 

503 fail iput: 

504 iput (inode); 

505 fail inode: 

506 return NULL; 

507 } 
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先 在 478 行 分 配 一 个 空闲 的 inode 数据 结构 。 这 是 一 个 比较 复杂 的 数据 结构 , 我 们 已 在 “文件 系统 ” 
一 章 中 加 以 详细 介绍 。 对 于 管道 的 创建 和 使 用 , 我 们 关心 的 只 是 其 中 少数 几 个 成 分 。 第 一 个 成 分 i_pipe 
是 指向 一 个 pipe_inode_info 数据 结构 的 指针 ， 只 有 当 由 个 inode 数据 结构 所 代表 的 文件 是 用 来 实现 
一 个 管道 的 时 候 才 使 用 它 ， 否 则 就 把 这 个 指针 设 为 NULL. pipe inode info 的 数据 结构 是 在 
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include/linux/pipe fs i.h 中 定义 的 : 


struct pipe inode info | 
wait queue head t wait; 
char *base; 


hs 


unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 


int 
int 
int 
int 
int 
int 
int 


start; 

readers; 
writers; 

waiting readers; 
waiting writers; 
r_counter; 
w_counter; 


同一 文件 中 还 定义 了 一 些 宏 操作 ， 上 下 面 我 们 就 要 用 到 这 些 宏 定义 。 


前 面 get_pipe_inode( ) 的 代码 中 就 引用 了 PIPE_READERS 和 PIPE_WRITERS。 分 配 了 inode 数据 


/* Differs from PIPE BUF in that PIPE SIZE is the length of the actual 


memory allocation, whereas PIPE BUF makes atomicity guarantees. */ 


#define 


#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 


#define 
#define 
#define 
#define 
#define 
&define 


PIPE SIZE 


PIPE SEM (inode) 
PIPE WAIT (inode) 
PIPE BASE (inode) 
PIPE START (inode) 
PTPE_LEN (inode) 


PAGE_SIZE 


(& (inode). i_sem) 


(& (inode) 


( (inode). 
( (inode). 
( (inode). 


PIPE READERS (inode) ( (inode). 
PIPE WRITERS (inode) ((inode). 
PIPE WATTING READERS (inode) ((inode). i_pipe-waiting readers) 
PIPE WAITING WRITERS (inode) ((inode). i_pipe->waiting_writers) 
PIPE RCOUNTER (inode) ( (inode). i_pipe->r_counter) 
PIPE WCOUNTER (inode) ( (inode). i_pipe->w_counter) 


PlPE EMPTY (inode) 
PIPE FULL (inode) 
PIPE FREE (inode) 
PIPE END(inode) ((PIPE START(inode) + PIPE LEN(inode)) & (PIPE_SIZE-1)) 
(PTPR STZE - PIPE START (inode) ) 
(PIPE SIZE - PIPE END (inode) ) 


PIPE MAX RCHUNK (inode) 
PIPE MAX WCHUNK (inode) 


. i_pipe->wait) 
i_pipe—>base) 
i_pipe->start) 
i_size) 
i_pipe->readers) 
i pipe—>writers) 


(PIPE LEN(inode) == 0) 
(PIPE LEN(inode) == PIPE SIZE) 
(PIPE STZE - PIPE LEN(inode)) 


结构 以 后 ，483 行 又 通过 pipe. new( ) 分 配 所 需 的 缓冲 区 。 这 个 函数 的 代码 在 fs/pipe.c H: 
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[sys_pipe( ) > do pipe( ) > get pipe inode( ) > pipe new( )] 


442 struct inode* pipe new(struct inodex* inode) 

443 { 

444 unsigned long page; 

445 

446 page = get free page(GFP USER); 

447 if (!page) 

448 return NULL; 

449 

450 inode->i pipe = kmalloc(sizcof (struct pipe inode info), GFP KERNEL): 
451 if (!inode->i_pipe) 

452 goto fail page; 

453 

454 init waitqueue head (PIPE WAIT (*inode)); 

455 PIPE BASE Ginode) = (char*) page; 

456 PIPE START(*inode) = PIPE LEN(*inode) = 0; 

457 PIPE_READERS (kinode) = PIPE WRITERS (*inode) = 0: 
458 PIPE WAITING READERS (kinode) = PIPE WAITING WRITERS (*inode) = 0; 
459 PIPE RCOUNTER Ckinode) = PIPE WCOUNTER(*inode) = 1; 
460 

461 return inode; 

462 fail page: 

463 free page(page); 

464 return NULL; 

465  ] 


这 里 先 分 配 一 个 内 存 页 面 用 作 管道 的 缓冲 区 ， 肯 分 配 一 个 缓冲 区 用 作 pipe. inode info 数据 结构 。 
前 血 讲 过 ， 用 来 实现 管道 的 文件 是 无 形 的 ， 它 并 不 出 现在 磁盘 或 其 他 的 文件 系统 存储 介质 上 ， 而 只 存 
在 于 内 存 空间 ， 其 他 进程 也 无 从 “打开 ”或 访问 这 个 文件 。 所 以 ， 这 个 所 谓 文 件 实质 上 只 是 “个 用 作 
缓冲 区 的 内 存 和 页 向 ， 只 起 把 它 纳 入 了 文件 系统 的 机 制 ， 借 用 了 文件 系统 的 各 种 数据 结构 和 操作 加 以 管 
FE hy Le 

在 前 一 章 中 已 经 讲 过 ，inode 数据 结构 中 有 个 重要 的 成 分 i_fop， 是 指向 一 个 file operations 数据 结 
构 的 指针 。 在 这 个 数据 结构 中 给 出 了 用 于 该 文件 的 每 种 操作 的 函数 指针 。 对 于 管道 CORED 
get_pipe_inode ( ) 中 的 486 行 )， 这 个 数据 结构 是 rdwr_pipe_fops， 也 是 在 pipe.c 中 定义 的 : 


432 struct file operations rdwr pipe fops = { 


433 llseek: pipe_lseek, 

434 read: pipe_read, 

435 write: pipe write, 

436 poll: pipe_poll, 

437 ioctl: pipe, loctl, 

438 ` open: pipe rdwr open, 
439 release: pipe rdwr release, 
440 }; 
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结合 上 列 pipe._fs_i.h 中 的 宏 定 义 ， 读 者 应 该 不 难 理解 get_pipe_inode( ) 中 自分 配 了 inode 结构 以 后 
的 一 些 初始 化 操作 ,我 们 就 不 多 讲 了 。 值 得 注意 的 是 ,代码 中 并 没有 设置 inode 结构 中 的 inode_operations 
结构 指针 i_op， 所 以 该 指针 为 0。 可 见 ， 对 十 用 来 实现 管道 的 inode 并 不 允许 对 这 里 的 inode 进行 常规 
操作 ， 只 有 当 inode 代表 着 “有 形 ” 的 文件 时 才 使 用 。 

从 get_pipe_inode( )J& [2] &] do_pipe( ) 中 时 ， 必 须 的 数据 结构 都 已 经 齐全 了 。 但 是 ， 还 要 为 代表 考 管 
道 两 端的 两 个 已 打开 文件 分 别 分配 “ 打 开 文 件 写 ”这 是 通过 调用 get_unusal_fd( ) 完 成 的 。 

让 我 们 在 do_pipe( ) 中 继续 往 下 看 (pipe.c): 


[sys. pipe( ) > do_pipe( )] 


542 error = —ENOMEM; 

543 sprintf(name, "[*lu]", inode-5»i ino); 

544 this.name - name; 

545 this. len = strlen(name); 

546 this. hash = inode-^i ino; /* will go */ 
547 dentry = d alloc(pipe mni-^mnt sb-5s root, &this); 
548 if (!dentry) 

549 goto close f12 inode i j; 

550 dentry-^d op = &pipefs dentry operations; 
551 d add(dentry, inode); 

552 fl—^f vfsmnt = f2—f vfsmnt = mntget (mntget (pipe_mnt)) ; 
553 fl->f dentry = f2->f_dentry = dget(dentry); 
554 

555 /* read file */ 

556 fl-^f pos = f2-»f pos = 0; 

557 fl->f_flags = 0 RDONLY; 

558 fl-^f op = &read pipe fops; 

559 fl-^f mode = 1; 

560 fl->f version = 0; 

561 

562 /* write file */ 

563 f2-»f flags = O WRONLY; 

564 f2->f op = &write pipe fops; 

565 f2->f mode = 2; 

566 f2-^f version = 0; 

567 

568 fd install(i, fl); 

569 fd install(j, £2); 

570 fdt0j = i; 

571 fd[1] = j; 

572 return 0; 


在 正常 的 情况 下 ， 每 个 义 件 都 至 少 有 一 个 “日 录 项 ”代表 这 个 文件 的 一 个 路 径 名 ; ETS DOR 

则 只 描述 一 个 文件 ， 在 dentry 数据 结构 中 有 个 指针 指向 相应 的 inode 结构 。 因 此 ， 在 file 数据 结构 中 有 

个 指针 f_dentry 指向 所 打开 文件 的 目录 项 dentry 数据 结构 , AFE, M file 结构 开始 就 可 以 -路 通 到 文件 

的 inode 结构 。 对 于 管道 来 说 ， 由 丁 文件 是 无 形 的 ， 本 来 并 不 非得 有 个 日 录 项 不 可 。 可 是， 在 file 数据 
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结构 中 并 没有 直接 指向 相应 inode 结构 的 指针 ， 一 定 要 经 过 -个 目录 项 中 转 一 下 才 行 。 而 inode £51 X. 
是 各 种 文件 操作 的 枢纽 .这么 一 来 ,对 十 管道 就 也 得 有 一 个 目录 项 了 ,所 以 代码 中 的 547 行 调用 d_alloct ) 
分 配 个 目录 项 ， 然 后 通过 d_add( ) 使 已 经 分 了 配 的 inode 结构 与 这 个 目录 项 互相 挂 上 钧 ， 并 且 让 两 个 已 
打开 文件 结构 中 的 f_dentry 指针 部 指向 这 个 目录 项 。 

对 目录 项 的 操作 是 通过 一 个 dentry_operations 数据 结构 定义 的 。 具体 到 管道 文件 的 日 录 项 , 这 个 数 
据 结 构 起 pipefs_dentry_operations， 这 是 在 550 行 中 设置 的 ， 定 义 于 fs/pipe.c FP: 


472 static struct dentry_operations pipefs_dentry_operations = { 
473 d delete: pipefs delete dentry, 
474 be 


器 是 说 ， 对 十 管道 的 日 录 需 只 允许 种 操作 ， 那 就 是 pipefs_delete_dentry( )， 即 把 它 删除 。 

对 于 管道 的 两 端 来 说 ， 管 道 是 单 向 的 ， 所 以 其 fl 一端 设 置 成 “只 读 ”(O_RDONLY)， my -Han 
设置 成 ”只 号 ”(O_WRONLY )。 同 时 , 两 端的 文件 操作 也 分 别 设置 成 read_pipe_fops 和 write_pipe_fops, 
那 都 是 在 pipe.c 中 定义 的 : 


412 struct file operations read pipe fops = { 


413 llseek: pipe lseek, 

414 read: pipe read, 

415 write: bad pipe w, 

416 poll: pipe poll, 

417 ioctl: pipe ioct]l, 

418 open: pipe read open, 

419 release: pipe read release, 
420  ]); 

421 

422 struct file operations write pipe fops - | 
423 llseek: pipe lseek, 

424 read: bad pipe r, 

425 write: pipe write, 

426 poll: pipe poll, 

421 ioctl; pipe ioctl, 

428 open: pipe write open, 
429 release: pipe write release, 
430 Hh; 


比较 “下 ， 就 可 以 发 现 ， 在 read_pipe_fops 中 的 写 操作 函数 为 bad. pipe w(). TÆ write pipe fops 
T) Be BRE PRY bad_pipe_r( )， 分 别 用 米 返 同一 个 出 错 代码 。 读 者 可 能 会 问 ， 前 面 在 管道 的 inode X 
据 结 构 中 将 指针 i_fop RERIN rdwr_pipe_fops， 那 显然 是 双向 的 ， 这 里 不 是 有 矛盾 吗 ? 其实 不 然 。 
对 于 代表 着 管道 两 端的 两 个 已 打开 文件 来 说 ， 一 个 只 能 写 而 另 一 个 只 能 读 ， 这 是 事情 的 一 个 方面 。 可 
是 ， 为 一 方面 ， 这 册 个 远 辑 上 的 已 打开 文件 都 遂 回 同一 个 inode、 同 一 个 物理 上 存在 的 “文件 ”， 基 用 
作 管 道 的 缓冲 区 ; 显然 这 个 缓冲 区 应 该 既 支 持 写 又 支持 读 ， 这 才能 使 数据 流通 。 读 者 在 “文件 系统 ” 
一 章 中 看 到 ,file 结构 中 的 指针 fop 一 般 都 来 自 inode 结构 中 的 指针 i_fop, 都 指向 同一 个 file_operations 
结构 。 而 这 里 , 对 于 管道 这 么 一 种 特殊 的 文件 , 则 使 管道 两 端的 file 结构 各 上 月 指向 不 同 的 file operations 
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结构 ， 以 此 来 确保 MA RER 72 7-38 RET o 
管道 是 一 种 特殊 的 文件 ， 它 并 不 属于 某 种 特定 的 文件 系统 (如 Ext2), 而 是 自己 构成 一 种 独立 的 文 
件 系 统 ， 也 有 自身 的 数据 结构 pipe fs type (A fs/pipe.c): 


632 static DECLARE FSTYPE(pipe fs type, “pipets”, pipefs read super, 
633 FS NOMOUNT;FS SINGLE) ; 


系统 在 初始 化 时 通过 kern_mount( ) 安 装 这 个 特殊 的 文件 系统 ， 并 让 - -个 指针 pipe mnt 指 癌 安装 时 
的 vfsmount 数据 结构 : 


467 static struct vfsmount *pipe_mnt; 


现在 ， 代 表 着 管道 两 端的 两 个 文件 既然 都 属于 这 个 文件 系统 ， 它 们 各 自 的 file 结构 中 的 指针 
f vfsmnt 就 要 指向 安装 该 文件 系统 的 vfsmount 数据 结构 ， 而 这 个 数据 结构 也 就 多 了 两 个 使 用 者 ， 所 以 
3238/1] mntget( ) 两 次 〈 见 552 行 )， 使 其 使 用 计数 加 2. 

最 后 ，do_pipe( ) 中 的 568 行 和 569 行 把 两 个 已 打开 文件 结构 跟 分 配 得 的 打开 文件 扣 挂 起 钩 来 〈 注 
意 ,打开 文件 号 只 在 个 进程 的 范围 内 有 效 ); 并 且 将 两 个 打开 文件 号 填 入 数组 fap ] 中 ， 使 得 fd[0] 为 管 
道 读 出 端的 打开 文件 号 ， 而 世 [1 为 写 入 端的 打开 文件 号 。 这 个 数 弓 随 后 在 sys_pipe( ) 中 被 复制 到 当前 
进程 的 用 户 空 间 。 

显然 ， 管 道 的 商 端 在 创建 之 初 都 在 同 ， 进 程 中 ， 这 样 是 起 不 到 进程 间 通 信 的 作用 的 。 那 么 ， 怎 样 
才能 将 管道 用 于 进程 间 通信 了 昵 ? PUE 个 典型 的 过 程 。 

(1) 进程 A 创建 一 个 管道 , 创建 完成 时 代表 管道 两 端的 两 个 已 打开 文件 都 在 进程 A 中 。 示意 图 如 

图 6.1。 





进程 打开 文件 表 


图 6.1 父 进程 创建 管道 


(2) 进程 A 通过 fork( ) 创 建 出 进程 B， 在 fork( ) 的 过 程 中 进程 A 的 打开 文件 表 按 原样 复制 到 进 
程 B 中 。 见 图 6.2. 
(3) 进程 A 关闭 管道 的 读 端 ， 而 进程 B 关闭 管道 的 写 端 。 于 是 ， 管 道 的 写 端 在 进程 A "PR OS 
在 进程 B 中 ， 成 为 父子 进程 之 间 的 通信 管道 ， 见 图 6.3。 
(4) 进程 A 又 通过 fork( ) 创 建 进程 C， 然 后 关闭 其 管道 写 端 侧 与 管道 脱离 关系 ， 使 得 管道 的 写 端 
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在 进程 C 中 而 读 端 企 进程 B 中 ， 成 为 遇 个 兄弟 进程 之 间 的 管道 ， 如 图 6.4. 
(5) 进程 C 和 进程 B 各 自 遂 过 exec ) 执 行 各 白 的 日 标 程序 ， 并 通过 管道 进行 单 向 通信 。 


如 果 考 虑 一 个 使 用 管道 的 shell 命令 行 : 
“Is -1 | we -1" 
则 上 上 上面 的 进程 A 相当 十 shell; HFE B BUT “we -1”, 而 进程 C 执行 “ls -1”。 不 过 ， 在 进程 C 
中 时 将 “标准 输出 通道 ”stdout 重 定向 到 管道 的 写 端 ， 而 在 进程 BPW “REM GHIA” stdin Æ 
定向 到 管道 的 读 端 。 








进程 A 
进程 打开 文件 表 进程 打开 文件 表 
图 6.2 父子 进程 共享 管道 
进程 A 
管道 文件 
(缓冲 区 ) 
进程 打开 文件 表 进程 打开 文件 表 


图 6. 3 父子 进程 通过 管道 单 向 通讯 
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进程 A 进程 B 
管道 文件 
CRIP) 
进程 打开 文件 表 进程 打开 文件 表 
进程 C 
进程 打开 文件 表 


图 6.4 兄弟 进程 通过 管道 单身 通讯 
下 面 我 们 看 一 个 实例 : 
#include čstdio. h> 


int main( ) 
{ 
int child B, child C; 
int pipefds[2]; /* pipefds[0] for read, pipefds[1] for write */ 
char *argsll ] = {”/bin/we”, NULL}; 
char *args2[ ] = ("/usr/bin/ls^, ^-1^, NULL); 


/* process A 来/ 
pipe(pipefds); /* create a pipe */ 


if (!(child B = fork( ))) /* fork process B */ 
{ 


/#ee Process B eekek/ 
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close(pipefds[1]); /* close the write end */ 
/* redirect stdin */ 
close (0) ; 
dup2(pipefds{0], 0); 
clase (pipefds|[0]) ; 
/* exec the target */ 
execve(”/usr/bin/we”, argsl, NULL): /x no return if success */ 
printf (“pid %d: I am back, something is wrong!\n”, getpid( )); 
} 
/* process A continues */ 
close (pipefds[0]): /* close the read end */ 
if (!(child_C = fork( ))) /* fork process C */ 
{ 
ORK process C ****/ 
/* redirect stdout */ 
close(1); 
dup2(pipefds[1], 1); 
close(pipefds[1]):; 
/* exec the target */ 
execve("/bin/ls^, args2, NULL); /* no return if success */ 
printf( pid %d: I am back, something is wrong!\n”, getpid( )); 
} 


/* process A continues */ 

close(pipefds[1]); /* close the write end */ 

wait4(child B, NULL, 0, NULL); /* wait for process B to finish */ 
printf (“Done! \n’) ; 


return Q; 


程序 中 调用 的 dup2( ) 是 -个 系统 调用 ， 它 将 一 个 已 打开 文件 的 file 结构 指针 复制 到 由 指定 的 打开 
文件 号 所 对 应 的 通道 。 在 进程 B 中 ， 先 把 打开 文件 号 0〈 即 标准 输入 ) OR, REEERE A hi 
到 文件 号 0 所 对 应 的 通道 ， 这 就 完成 了 对 标准 输入 的 重 定 向 。 但 是 原先 的 管道 读 端 既然 已 经 复制 就 没 
有 用 处 了 ， 所 以 也 将 其 关闭 。 进程 C 的 重 定向 与 此 相似 ， 只 不 过 所 重 定向 的 是 标准 输出 。 除 此 之 外 ， 
就 与 前 而 所 述 的 过 程 完全 一 样 了 。 

从 进程 问 通信 的 角度 来 说 ， 这 种 标准 输入 和 标准 输出 的 重 定向 并 非 必须 ， 直 接 使 用 管道 原先 的 写 
端 和 该 端 也 能 在 进程 之 向 传递 数据 。 但 是 ， 应 该 承认 这 种 将 标准 输入 /输出 重 定向 与 管道 结合 使 用 的 办 
法 是 非常 巧妙 的 ， 不 这 样 就 难以 达到 将 可 执行 程序 在 启动 执行 时 动态 地 加 以 组 合 的 灵活 性 。 另 “方面 ， 
一 旦 将 标准 输入 和 怀 准 输出 分 别 重 定向 到 管道 的 读 端 和 写 端 以 后 ， 两 个 进程 就 都 像 对 普通 文件 一样 地 
读 / 与 。 事 实 上 上 ， 它 们 并 不 知道 白 己 在 读 / 写 的 名 底 是 ~ 个 文件 ， 一 个 设备 ， 还 是 一 个 管道 ? 

但 是 ， 我 们 知道 当 读 一 个 文件 到 达 末 尾 的 时 候 会 碰 到 EOF， 从 而 知道 已 经 读 完了 ， 可 是 当 从 管道 
中 读 时 应 该 读 到 什么 时 候 为 止 呢 ? 下 面 读者 将 会 看 到 ， 向 管道 写 入 的 进程 在 完成 其 “使 命 ” 以 后 就 会 
关闭 管道 的 写 端 ， 一 旦 管道 没有 了 写 端 就 相当 于 到 达 了 文件 的 末尾 。 

从 管道 所 传递 数据 的 角度 看 ， 两 端的 两 个 进程 之 间 是 - -种 典型 的 生产 者 /消费 者 关系 。 一 旦 牛 产 者 
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停止 了 生产 并 关闭 了 管道 的 写 入 端 ， 消 费 省 就 没有 东西 可 消费 了 ， 这 堵 候 就 到 了 文件 《管道 ) 的 末尾 。 
仁 典 型 的 情况 下 ， 牛 产 者 总 是 在 完成 了 使 命 ， 调 用 exit( ) 之 前 关闭 其 所 有 的 已 打开 文件 ， 包 括 管道 ， 而 
消费 者 则 总 是 在 得 知已 经 到 达 了 输入 文件 末尾 时 才 调 用 exit( )， 所 以 一 般 总 是 生产 者 调用 exit( EB, 
消费 者 调用 exit( ) 在 后 。 但 是 ， 在 特殊 的 条 件 下 ， 也 会 有 消费 者 exi ) 人 在 前 的 情况 发 生 〔 例 如 消费 者 进 
程 发 生 了 非法 越界 访问 )， 而 使 得 管道 的 读 端 关闭 在 前 。 在 这 种 情况 下 内 核 会 器 生产 者 进程 发 出 一 个 
SIGPIPE 信和 号， 表示 管道 已 经 “断裂 ”说 生产 者 进程 在 接 收 到 这 种 信号 时 通常 就 会 调用 exit( )。 

下 而 ， 我 们 进一步 看 看 对 管道 的 关闭 以 及 读 、 写 操作 的 源 代码 ， 以 加 深 对 管道 机 制 的 了 解 和 理解 。 

先 看 管道 的 关闭 。 当 一 个 进程 通过 系统 调用 close( ) 关 闭 代表 着 管道 一 端的 已 打开 文件 时 ， 在 内 核 
中 经 由 如 下 的 执行 路 线 而 到 达 fput( ): 

sys close() > fip close() > fput() 

关于 这 条 执行 路 线 的 详情 可 参阅 “文件 系统 ”一 章 。 每 当 对 一 个 已 打 并 文件 执行 “关闭 ”操作 时 ， 
在 fput( ) 中 将 相应 file 数据 结构 中 的 共享 计数 减 1。 旭 果 减 1 以 后 该 共享 计数 变 成 了 0， 就 进而 通过 其 
体 文件 系统 提供 的 release 操作 ， 释 放 对 dentry 数据 结构 的 使 用 ， 并 释放 file 数据 结构 。 

在 最 初 打开 一 个 文件 时 ， 内 核 为 之 分 配 一 个 fe 数据 结构 ， 并 将 共享 计数 设置 成 1。 那么 ,在 什么 
情况 下 这 个 共享 计数 会 变 成 大 于 1， 从 而 使 得 在 一 次 调用 fput( ) 后 共享 计数 不 变 成 0 呢 ? 

第 一 种 情况 是 在 fork ) 一 个 进程 的 时 候 ， 读 者 在 第 4 章 已 经 看 到 过 在 do_fork( ) 中 更 调用 一 全 函数 
copy files(); EHAA for m, MATA ITH ICH file 结构 调用 get_file( ) 弟 增 其 共享 计数 。 所 以 ， 
在 fork() 出 来 一 个 子 进 程 以 后 ， 若 父 进程 先 关闭 个 已 打开 文件 ， 便 只 会 使 其 共享 计数 减 1， 而 并 不 会 
使 计数 到 达 0， 因 而 也 就 不 会 最 终 地 关闭 文件 。 

第 二 种 情况 是 通过 系统 调用 dup( ) 或 dup2() “复制 ”一 个 打开 文件 号 。 这 与 将 同一 个 文件 再 打开 
一 次 是 不 同 的 ， 它 只 是 使 一 个 出 经 存在 的 file 数据 结构 种 本 进程 的 男 一 个 打开 文件 号 建立 联系 而 已 。 
因此 ， 前 面 所 举 的 例子 中 将 标准 输入 重 定向 到 一 个 管道 时 ， 先 是 dup2( ) 然 后 close( )， 并 不 会 使 其 file 
结构 中 的 共享 计数 变 成 0。 

也 就 是 说 ， 只 有 在 一 个 file 结构 的 最 后 一 个 “用 户 ” 通 向 该 结构 的 最 后 :条 通路 也 被 关闭 时 ， 才 
会 调用 具体 文件 系统 提供 的 release 操作 并 最 终 释 放 file 数据 结构 。 

函数 fput( ) 所 处 理 的 对 象 是 与 所 关闭 的 文件 相 联 系 的 dentry 等 数据 结构 。 在 do pipe ) 的 代码 中 ， 
我 们 已 经 看 到 管道 峡 端 的 文件 操作 结构 《file_operations 结构 ) 被 分 别 设置 成 read_pipe_fops 和 
write_pipe_fops 。 两 个 数据 结构 中 对 应 于 release 的 函数 指针 分 别 为 pipe_read_release 3H 
pipe_write_release。 所 以 ， 在 fput( ) 采 用 这 些 指针 来 调用 相应 的 扼 数 时 就 会 执行 pipe_read_release( ) 或 
pipe write release( )。 这 两 个 函数 都 弟 通 向 pipe_release( ) 的 “中 转 站 ”， 或 者 说 是 pipe_release( ) 的 “外 
层 ”， 继 续 沿 着 pipe. 往 下 看 : 





[sys close ( ) > filp close( ) > fput( ) > pipe_read_release( )] 


321 static int 
322 pipe read release(struct inode *inode, struct file *filp) 


323 { 

324 return pipe release(inode, 1, 0); 
428. 3 

326 


327 static int 
328 pipe write release (struct inode *inode, struct file *filp) 
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329 { 
330 return pipe release(inode, 0, 1); 
331 } 


其 主体 为 函数 pipe_release( )， 源 代码 在 pipe.c 中 。 
结合 这 两 个 函数 以 及 前 而 所 列 的 pipe_fs_ih 中 的 一 些 宏 定义 ，pipe_release( ) 的 代码 就 不 难 读 懂 了 。 


[sys close ( ) > filp close( ) > fput( ) > pipe read release( ) > pipe_release( )] 


302 static int 
303 pipe release(struct inode *inode, int decr, int decw) 


304 { 

305 down (PIPE_SEM (inode) ) ; 

306 PIPE READERS (kinode) -= decr; 

307 PIPE WRITERS (*inode) -= decw; 

308 if (!PIPE_READERS (kinode) && !PIPE WRITERS (*inode)) | 
309 struct pipe inode info *info = inode->i_pipe; 
310 inode->i_pipe = NULL; 

311 free page((unsigned long) info->base) : 

312 kfree (info) ; 

313 } else { 

314 wake up interruptible(PIPE WAIT (*inode)): 

315 } 

316 up (PIPE SEM(*inode)); 

317 

318 return 0; 

319  j 


就 像 在 file 结构 中 有 共享 计数 - 样 ， 人 在 由 inode-»i pipe 所 指向 的 pipe, inode. info 结构 中 也 有 共享 
计数 ， 而 且 有 两 个 ， 一 个 是 readers，“ 个 是 writers。 这 两 个 共享 计数 在 创建 管道 时 在 get. pipe inode( ) 
中 都 被 设置 成 长 见 pipe.c:getpipe_inode( ) 中 的 48$ 行 )。 然 后 , 当 关 闭 管道 的 读 端 时 , pipe_read_release( ) 
调用 pipe_release( )， 使 共享 计数 readers 减 1， 而 关闭 管道 的 写 端 时 则 使 writers 减 1。 当 二 者 都 减 到 了 
0 时 ， 整 个 管道 束 完 成 了 使 命 ， 此 时 应 将 用 作 绥 冲 区 的 存储 页 面 以 及 pipe inode info 数据 结构 释放 。 
在 常规 的 文件 操作 中 ,文件 的 inode 存在 于 磁盘 (或 其 他 介质 ) 上 ,所 以 在 最 后 关闭 时 要 将 内 存 中 的 inode 
数据 结构 写 回 到 磁盘 上 。 但 是 ， 管 道 并 不 是 常规 意义 上 的 文件 ， 磁 可 上 并 没有 相应 的 索引 节点 ， 所 以 
最 后 只 是 将 分 配 的 inode 数据 结构 (以 及 dentry 结构 》 释放 了 事 ， 而 并 没有 什么 磁盘 操作 。 这 一 点 从 
用 于 管道 的 inode 数据 结构 中 的 inode_operations 结构 指针 为 0 可 以 看 出 。 

再 看 管道 的 读 操 作 。 在 典型 的 应 用 中 ， 管 道 的 读 端 总 是 处 于 个 循环 中 ， 通 过 系统 调用 read( ) 从 
管道 中 读 ， 读 了 就 处 理 ， 处 理 完 又 读 。 对 管道 的 读 操 作 ， 在 内 核 中 经 过 sys read( ) 和 数据 结构 
read pipe fops 中 的 函数 指针 前 到 达 pipe_read( )。 这 个 函数 的 代码 在 pipe.c 中 ， 让 我 们 逐 段 地 往 下 看 : 


[sys read( ) > pipe read( )] 


38 static ssize t 
39 pipe read(struct file *filp, char *buf, size t count, loff t *ppos) 
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40 { 

4] struct inode *inode = filp->f_dentry—>d_inode; 
42 ssize t size, read, ret; 

43 

44 /* Seeks are not allowed on pipes. */ 

45 ret = -ESPIPE; 

46 read = 0; 

47 if (ppos != &filp-^f pos) 

48 goto out nolock; 

49 


这 里 44 行 的 注解 说 seek 操作 在 管道 上 是 不 允许 的 ， 这 当然 是 对 的 ， 事 实 上 函数 pipe Iseek( ) 只 是 
返回 一 个 出 错 代码 。 注 意 47 行 的 检验 所 针对 的 只 是 参数 ppos, 那 古 个 指针 , 必须 指向 ilp->f_pos 本 身 。 
沿 着 pipe.c 再 往 下 看 : 


[sys_read( ) > pipe read( )] 


50 /* Always return 0 on null read. */ 
ol ret = 0; 

52 if (count == 0) 

53 goto out nolock; 

54 

55 /* Get the pipe semaphore */ 

56 ret = -ERESTARTSYS; 

57 if (down interruptible (PIPE SEM (inode) ) ) 
58 goto out_nolock; 

59 

60 if (PIPE EMPTY (*inode)) { 

61 do_more_read: 

62 ret = 0; 

63 if (!PIPE_WRITERS (*inode)) 

64 goto out; 

65 

66 ret = —EAGAIN; 

67 if (filp->f flags & 0 NONBLOCK) 

68 goto out; 

69 

70 for-(::) 1 

71 PIPE WAITING READERS C*inode) ++; 
72 pipe wait (inode) ; 

73 PIPE WAITING READERS (*inode) —; 
14 ret = -ERESTARTSYS; 

75 if (signal pending(current)) 

76 goto out; 

TT ret = 0; 

78 if (!PIPE EMPTY (*inode)) 

19 break; 
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80 if (IPIPE WRITERS (*inode) ) 
81 goto out: 

82 } 

83 } 

84 


如 果 读 的 时 候 管道 里 已 经 有 数据 在 缓冲 区 中 ， 这 一 段 程 序 就 被 跳 过 了 。 可 足 ， 如 果 管 道 缓冲 区 中 
没有 数据 ， 那 一 般 就 要 睡眠 等 待 了 ， 但 是 有 两 种 例外 的 情况 。 第 一 种 情况 是 管道 的 writers 计数 已 经 为 
0， 也 就 是 说 已 经 没有 “生产 者 ”会 向 管道 中 写 了 ， 这 时 候 当 然 不 能 再 等 待 。 第 - -种 情况 是 管道 创建 时 
设置 了 标志 位 O_NOBLOCK, 表示 在 读 不 到 东西 时 ， 当 前 进程 不 应 被 “阻塞 ”( 也 就 是 在 睡眠 中 等 待 )， 
而 要 芯 即 返回 。 只 要 不 属于 这 两 种 特殊 情况 , 那 就 要 通过 pipe wait( ) 在 睡眠 中 等 待 了 , PRÉC pipe_wait( ) 
的 代 僻 也 在 同 :文件 pipe.c F: 


[sys_read( ) > pipe read( ) > pipe wait( )] 


25 /* Drop the inode semaphore and wait for a pipe event, atomically */ 
26 void pipe wait (struct inode * inode) 

27 { 

28 DECLARE _WAITQUEUE (wait, current): 

29 current—>state = TASK INTERRUPTIBLE; 

30 add wait queue(PIPE WAIT (*inode), &wait); 

3l up (PIPE_SEM(*inode) ) ; 

32 schedule( ) ; 

33 remove wait queue (PIPE WAIT (*inode), &wait); 
34 current—->state = TASK RUNNING; 

35 down (PIPE_SEM (#inode)) ; 

36 } 


有 关 信 号 量 和 等 待 队 列 的 使 用 以 及 进程 调度 请 参看 第 4 章 。 注 意 ， 与 这 里 的 up( ) 操 作 配 对 的 
down interruptible( )， 是 在 pipe read( ) 代 码 中 的 57 行 ，-- 个 在 for 循环 外 面 ， 一 个 在 for 循环 里 面 。 实 
WE, pipe_read( ) 中 的 临界 区 是 从 57 行 至 127 行 《 见 下 面 的 代码 )， 但 是 睡眠 时 必须 要 退出 临界 区 ， 
而 到 被 唤醒 后 青 进 入 临界 区 。 为 什么 要 把 pipe wait( ) 放 在 一 个 循环 中 呢 ? 这 是 因为 睡眠 中 的 进程 被 唤 
醒 的 原因 不 一 定 就 是 有 进程 往 管道 中 写 ， 也 吕 能 是 收 到 了 信号。 而 且 ， 即 使 是 因为 有 进程 往 管道 中 写 
而 唤醒 ， 也 不 能 保证 每 个 被 唤醒 的 进程 都 能 读 到 数据 ， 因 为 等 待 着 从 管道 中 读数 据 的 进程 可 能 不 止 … 
个 。 因 此 ， 要 将 睡眠 等 待 的 过 程 放 在 一 个 循环 中 ， 并 且 在 唤醒 以 后 还 要 再 检验 所 等 待 的 条 件 是 否 得 到 
满足 ， 以 及 是 否 发 生 了 例外 的 情况 。 对 于 在 生产 者 /消费 者 模型 中 消费 者 ，- 方 的 等 竺 过程， 这 是 一 种 典 
型 的 设计 。 在 正常 的 情况 下 ， 这 个 循环 般 都 是 因为 管道 中 有 了 数据 而 结束 〈 见 78 和 79 行 )， 十 是 具 
体 从 管道 中 读 取 数 据 的 操作 就 开始 了 《pipe.c): 





[sys read( ) > pipe_read( )] 


85 /* Read what data is available. */ 
86 ret > —EFAULT: 
87 while (count > 0 && (size = PIPE LEN(*inode))) 1 
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88 char *pipebuf = PIPE BASE(*inode) + PIPE START (*inode} ; 
89 ssize_t chars = PIPE MAX RCHUNK (*inode) ; 
90 

91 if (chars > count) 

92 chars = count; 

93 if (chars > size) 

94 chars = size; 

95 

96 if (copy to user(buf, pipebuf, chars) ) 
97 goto out; 

98 

99 read += chars; 

100 PIPE START (inode) += chars; 

101 PIPE START (kinode) &= (PIPE SIZE - 1); 
102 PIPE _LEN(*inode) -= chars; 

103 count -= chars; 

104 ^ buf += chars; 

105 } 

106 

107 /* Cache behaviour optimization */ 

108 if (!PIPE LEN (*inode) ) 

109 PIPE START(*inode) = 0; 

110 


111 if (count && PIPE WAITING WRITERS Ginode) && !(filp-^f flags & O NONBLOCK)) { 
112 /* 


113 * We know that we are going to sleep: signal 
114 * writers synchronously that there is more 
115 * room. 

116 */ 

117 wake up interruptible sync(PIPE WAIT (*inode) ) ; 
118 if (!IPIPE EMPTY (*inode)) 

119 BUG( ) ; 

120 goto do more read; 

121 } 

122 /* Signal writers asynchronously that there is more room. */ 
123 wake_up_interruptible (PIPE_WATT (inode) ) ; 

124 

125 ret = read; 

126 out: 

127 up (PIPR_SEM (*inode) ) ; 

128 out_nolock: 

129 if (read) 

130 ret = read; 

131 return ret; 

132 ) 


每 个 管道 只 有 一 个 页 面 用 作 缓冲 区 ， 沪 页 面 是 按 环 形 缓冲 区 的 方式 来 使 用 的 。 跳 是 说 ， 每 当 读 / 与 
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到 了 页 面 的 末端 就 又 要 回 到 页 面 的 始 端 ( 见 图 6.5)， 这 样 ， 管 道中 的 数据 就 有 可 能 要 分 两 段 读 出 ， 所 
以 要 由 一 个 循环 来 完成 。 


start 





第 一 段 读 取 的 字符 ， 
从 base+start 地 址 开始 读 。 


第 . 段 读 取 的 字符 ， 
此 时 start=0， 即 从 base 
地 址 开始 该。 


base 


图 6.5 管道 的 环形 缓冲 区 示意 图 


结合 本 节 前 而 所 列 的 宏 定义 ， 这 段 代码 应 该 是 不 难 理解 的 。 循 环 结束 以 后 的 情况 有 以 下 几 种 可 能 ; 
(1) 读 到 了 所 要 求 的 长 度 ， 所 以 count MBIT 0， 同 时 管道 中 的 数据 也 正好 读 完了 ， 所 以 管道 中 
的 数据 长 度 变 成 了 0。 此 时 函数 的 返回 值 为 所 要 求 的 长 度 。 

(2) 管道 中 的 数据 已 经 读 完 ， 但 还 没有 达到 所 柴 求 的 长 度 ， 函 数 返 同 实际 读 出 的 长 度 。 

3) 读 到 了 所 要 求 的 长 度 ， 但 管道 中 的 数据 还 有 剩余 ， 此 时 函数 也 是 返回 所 要 求 的 长 度 。 

住 前 两 种 情况 下 ， 管 道中 的 数据 都 已 读 完 ， 但 指示 着 下 一 次 读 / 写 的 起 始点 start， 在 不 同 的 条 件 下 
有 可 能 住 页 面 中 的 任何 位 置 上 。 可 是 ， 既 然 管道 中 已 经 宝 了 ， 那 就 不 如 把 起 始点 start 设置 到 页 面 的 开 
头 ， 这 样 可 以 减少 下 一 次 读 / 写 必须 分 成 两 段 进 行 的 可 能 性 ， 这 就 是 108 行 和 109 行 所 作 优 化 的 目的 。 

由 于 管道 的 缓冲 区 只 限于 一 个 页 面 ， 当 “生产 形 ” 进 程 有 大 量 数据 要 写 时 ， 每 当 写 满 了 一 个 页 面 

(分 一 段 或 两 段 ) 就 得 停 下 来 睡 卢 等待 ， 等 证 消费 者 进程 从 管道 中 读 走 了 一 些 数 据 而 腾 出 一 些 空间 时 

才能 继续 。 所 以 ,“ 消 费 者 ”进程 在 读 出 了 一 些 数 据 以 后 要 唤醒 可 能 正在 睡眠 中 的 “生产 者 ”进程 。 最 
后 ， 只 要 读 出 的 长 度 不 为 0， 就 要 更 新 inode 的 受 访问 时 间 印 记 。 

所 有 这 些 操 作 ， 包 括 从 管道 中 读 出 ， 复 制 到 用 户 空间 ， 更 新 inode 的 受 访问 时 间 印 记 等 等 ， 都 是 不 
能 容许 其 他 进程 打扰 的 ， 所 以 都 是 放 在 临界 区 中 进行 。 而 57 行 处 的 down, interruptible( ) 和 127 行 处 的 
OEI E SIXES IX 。 

与 该 操作 相似 , 对 管道 的 写 操作 也 是 在 sys_write( ) 中 通过 file 结构 中 的 指针 f_op 4221 file operations 
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数据 结构 write pipe fops, 再 通过 其 函数 指针 write 调用 pipe_write( ), 这 个 函数 也 是 在 pipe.c 中 定义 的 ， 
我 们 还 是 逐 段 来 解读 : 


[Sys_write( ) > pipe write( )] 


134 static ssize t 
135 pipe write(struct file *filp, const char *buf, size t count, loff t *ppos) 
136 { 


137 struct inode *inode = filp->f_dentry->d_inode; 
138 ssize t free, written, ret; 
139 
140 /* Seeks are not allowed on pipes. 站/ 
141 ret = -ESPIPE; 
142 written = 0; 
143 if (ppos != &filp->f pos) 
144 goto out_nolock; 
145 
146 /* Null write succeeds. */ 
147 ret = 0; 
148 if (count == 0) 
149 goto out nolock; 
150 
显然 ， 这 一 段 与 pipe_read( ) 的 开头 一 段 完 全 相同 。 继 续 往 下 读 : 
151 ret = -ERESTARTSYS; 
152 if (down interruptible(PIPE SEM(*inode))) 
153 goto out nolock; 
154 
155 /* No readers yields SIGPIPE. */ 
156 if (IPIPE READERS (*inode)) 
157 goto sigpipe; 
158 
159 /* If count <= PIPE BUF, we have to make it atomic.  */ 
160 free = (count 《= PIPE BUF ? count : 1); 
161 
162 /* Wait, or check for, available space. */ 
163 if (filp-^f flags & O0 NONBLOCK) | 
164 ret = -EAGAIN; 
165 if (PIPE FREE(*inode) € free) 
166 goto out; 
167 } else { 
168 while (PIPE FREE(*inode) < free) { 
169 PIPE WAITING WRITERS (#inode) ++; 
170 pipe wait (inode) ; 
171 PIPE WAITING WRITERS (*inode) --; 
172 ret = -ERESTARTSYS; 
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173 if (signal pending(current)) 
174 goto out; 

115 

176 if (!*PIPE READERS (*inode) ) 
177 goto sigpipe; 

178 } 

179 } 

180 


如 果 管 道 的 读 端 已 经 全 部 关闭 ， 那 就 表示 已 经 没有 “消费 者 ”了 。 既 然 没 有 了 “消费 者 ” 那么 “ 生 
产 者 ”的 存在 以 及 继续 “生产 ”就 都 失去 了 意义 ， 所 以 此 时 转 到 标号 sigpipe 处 ， 向 当前 进程 发 送 一 个 
SIGPIPE 傍 号 ， 表 示 管 道 已 经 “断裂 ” 


240 sigpipe: 


241 if (written) 

242 goto out; 

243 up (PIPE SEM (*inode)); 

244 send sig(SIGPIPE, current, 0); 
245 return -EPIPE; 


一 般 而 言 ， 进 程 在 接收 到 SIGPIPE 信号 时 会 调用 do exit( ) 来 结束 其 生命 。 读 者 也 许 注意 到 ， 这 里 
其 实 是 当前 进程 自己 向 自己 发 SIGPIPE 信和 号 。 堵 么 为 何不 占 接 调用 do_exit( ) 呢 ? REA Zr HHA: 
一 方面 是 使 程序 的 结构 更 好 , 更 整齐 划一 ; 另 一 方面 也 为 进程 道 过 信和 号 机 制 米 改 变 其 在 接收 到 SIGPIPE 
信号 时 的 行为 提供 了 更 多 的 灵活 性 甚至 可 能 性 。 | 

160 行 中 的 常数 PIPE_BUF 在 include/linux/limits.h 中 定义 为 4096。 当 要 求 写 入 的 长 度 不 超过 这 个 
数值 时 ， 内 核 保证 写 入 操作 的 “原子 性 ”， 也 就 是 说 ,一 定 要 到 管道 缓冲 区 中 是 够 容纳 这 块 数据 时 才 开 
始 写 。 如 果 超 过 这 个 数值 ， 就 不 保证 其 “原子 性 ”了 ， 这 时 候 有 多 大 空间 就 写 多 少 字 节 ， 有 一 个 字 节 
的 空间 就 写 一 个 字 节 ， 余 下 的 等 “消费 首 ” 读 走 一 些 字 节 以 后 再 继续 写 。 这 就 是 第 160 行将 变量 free 
设置 成 count 或 者 1 的 意义 。 注 意 变 量 free 表示 开始 写 入 前 缓冲 区 中 至 少 要 有 这 么 多 个 空 闪 的 宁 节 , 否 
则 就 要 睡眠 等 待 ， 所 以 只 是 在 决定 等 待 与 否 时 使 用 ， 而 一 旦 开始 写 入 就 不 再 使 用 了 。 读 者 可 以 对 照 前 
Ifl pipe_read( ) 中 的 代码 自行 阅读 这 里 的 162—179 行 ， 应 该 不 会 有 困难 。 

一 旦 “生产 者 ”进程 在 等 待 中 被 “消费 者 ”进程 唤醒 ， 并 且 缓 冲 区 中 有 了 足够 的 空间 ， 或 者 一 开 
始 时 缓冲 区 中 就 有 号 够 的 空间 ， 具 体 的 写 入 操作 就 开始 了 《上 见 pipe.c): 


[sys_write( ) > pipe_write( )] 


181 /* Copy into available space. */ 

182 ret = -EFAULT; 

183 while (count > 0) { 

184 int space; 

185 char *pipebuf = PIPE BASE(*inode) + PIPE END (inode) ; 
186 ssize t chars = PIPE MAX WCHUNK (*inode); 

187 

188 if ((space = PIPE FREE(C*inode)) != 0) { 
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189 if (chars > count) 

190 chars = count ; 

191 if (chars > space) 

192 chars = space; 

193 

194 if (copy from user (pipebuf, but, chars) ) 
195 goto out; 

196 

197 written += chars; 

198 PIPE LEN(C*inode) += chars; 

199 count -= chars; 

200 buf += chars; 

201 space = PIPE FREE C*inode); 

202 continuo; 

203 j 

204 

205 ret = written; 

206 if (filp->f flags & O_NONBLOCK) 

207 break; 

208 

209 do { 

210 /* 

211 * Synchronous wake-up: it knows that. this process 
212 * is going to give up this CPU, so it doesnt have 
213 * to do idle reschedules. 

214 */ 

215 wake up interruptible syne (PIPE_WAIT (*inode)) ; 
216 PIPE WAITING WRITERS (*inode) ++; 

217 pipe wait (inode) ; 

218 PIPE WAITING WRITERS (*inode)--; 

219 if (signal pending (current) ) 

220 goto out; 

221 if (IPIPE READERS (*inode) ) 

222 goto sigpipe; 

223 } while (!PIPE_FREE (*inode)); 

224 ret = -EFAULT; 

225 } 

226 

227 /* Signal readers asynchronously that there is more data. */ 
228 wake up interruptible (PIPE WAIT (*inode) ) ; 

229 

230 inode-?i_ctime = inode->i_mtime = CURRENT TIME; 
231 mark inode dirty (inode) ; 

232 

233 out: 

234 up (PIPE_SEM (inode) ) ; 

235 out_nolock: 

236 if (written) 
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237 ret = written: 
238 return ret; 
246 j 


H5. XH pipe read( ) 中 分 岗 段 读 的 情况 ， 即 使 要 求 写 入 的 长 度 小 于 PIPE BUF 时 ， 也 可 能 会 此 
分 商 段 来 气 ， 所 以 整个 写 入 的 过 程 也 放 在 一 个 while 循环 中 。 男 外 ， 此 求 写 入 的 长 度 大 于 PIPE. BUF 
时 ， 还 要 分 成 几 次 来 写 ， 也 就 是 先 写 入 若干 字 节 ， 然 后 睡 归 等待“ 消费 者 ”从 缓冲 区 中 读 走 …… 些 字 节 
而 创造 出 一 些 罕 间 ， 几 继续 写 。 这 就 是 为 什么 要 有 209—223 行 的 do_while 循环 的 版 因 。 这 个 循环 与 前 
面 的 睡眠 等 待 循 坏 略 有 不 同 ， 这 就 起 当 进 程 被 唤醒 时 ， 只 检验 缓冲 区 中 是 否 有 人 空间， 而 不 问 空间 多 大 。 
为 什么 呢 ? 因为 此 时 的 宗旨 是 有 一 个 学 节 的 空间 就 写 一 个 字 节 ， 而 既然 “消费 者 ”进程 已 经 读 走 了 若 
于 字 节 ， 那 么 至 少 己 经 有 一 个 字 尼 的 空间 ， 可 以 进入 while 循环 体 的 下 “次 循环 了 。 对 照 pipe_read( ) 
的 代码 ， 读 者 应 该 可 以 读 懂 上 面 这 段 代 人 码 而 不 会 有 太 大 的 困难 ， 我 们 把 它 留 给 读者 作 练习 。 建 议 读者 
假设 儿 种 不 同 的 数据 长 度 来 走 过 这 段 程序 ， 并 月 在 纸 上 记 下 几 种 不 同情 况 下 的 执行 路 线 。 阅 读 时 要 注 
意 202 行 的 continue 语句 ， 当 要 求 写 入 的 数据 长 度 个 人 于 PIPE_BUF 但 需要 分 两 段 (不 是 师 次 ) BA 
时 ， 它 使 执行 路 线 跳 过 后 面 的 do while 循 坏 。 同 时 ， 还 要 注意 185 行 中 的 宏 定 义 PIPE_LEND( TÉ 
写 入 的 位 置 pipe buf 回 色 页 面 的 起 点 。 

这 样 ， 在 典型 的 情景 下 ,“ 生 产 者 ”和 “消费 者 ”之 间 互 相等 待 ， 互相 唤 眼 ， 协 调 地 向 前 发 展 ， 也 





对 “生产 者 ”而 和 音 ， 缓 冲 区 中 有 空间 就 往 里 写 ， 并 且 唤 醒 可 能 正在 等 待 着 要 从 缓冲 区 中 读数 
据 的 “消费 者 ”没有 空间 就 睡 卢 ， 等 待 “ 消 费 者 ”从 缓冲 区 读 走 数据 市 腾 出 空间 。 

e 对 “消费 首 ” 而 言 ， 缓 冲 区 中 有 数据 就 读 出 ， 然 后 唤醒 可 能 正在 等 待 着 要 往 缓冲 区 写 的 “ 生 
产 者 ”如 没有 数据 说 睡眠， 等待“ 牛 产 者 ” 往 缓冲 区 中 写 数据 。 

一 名 话 ， 管 道 两 端的 进程 通过 管道 所 形成 的 是 典型 的 “生产 者 /消费 者 ”关系 和 运行 模式 。 


63 ”命名 管道 


应 该 说 ， 前 一 节 中 的 “管道 ”机 制 是 一 项 重 此 的 发 明 ， 它 为 Unix 操作 系统 所 带 来 的 变化 是 革命 性 
的 ， 甚 至 可 以 说 ， 没 有 管道 就 没有 当初 “Unix 环境 ”的 形成 。 但 是 ， 人 们 也 认识 到 ， 管 道 机 制 也 存在 
着 一 些 缺点 和 不 足 。 由 十 管道 是 -种 “无 名 “无形” 的 义 件 ， 它 就 愉 能 通过 fork( ) 的 过 程 创建 于“ 近 
杀 ” 的 进程 之 间 ， 而 不 可 能 成 为 可 以 在 任意 两 个 进程 之 间 建 立 通信 的 机 制 ， 更 不 可 能 成 为 一 种 一 般 的 、 
通用 的 进程 间 遂 信 模 型 。 同 时 ， 管 道 机 制 的 这 种 缺点 本 身 就 强 齐 地 暗示 着 人 们 ， 只 要 用 “有 名 入 “有 
形 ” 的 文件 来 实现 管道 ， 就 能 克服 这 种 缺点 。 这 里 所 亩 “有 名 ”是 指 这 样 .个 文件 应 该 有 个 文件 名 ， 
使 得 任何 进程 都 可 以 通过 文件 名 或 路 径 名 与 这 个 文件 挂 上 钧 ; BriB “有形 ”是 指 文件 的 inode 应 该 存在 
于 做 一 或 其 他 文件 系统 介质 上 ， 使 得 任何 进程 在 任何 时 间 《 而 不 仅仅 是 在 fork( ) 时 ) 都 可 以 建立 或 
断 开 与 这 个 文件 之 问 的 联系 。 所 以 ， 有 了 管道 以 后 ,“ 命 名 管道 ”的 出 现 就 是 必然 的 了 。 

为 了 实现 “命名 管道 ”， 在 “普通 文件 “所 设备 文件 “字符 设备 文件 ”之 外 ， 又 设立 了 一 种 
LRE, ARH FIFO 文件 (“先进 先 出 ”文件 )。 对 这 种 文件 的 访问 严格 遵循 “先进 先 出 ”的 原则 ， 市 
不 允许 有 在 文件 内 移动 读 写 指针 位 置 的 lseek( ) 操 作 。 这 样 一 来 ， 就 可 以 像 在 位 船上 建立 个 文件 一 样 
地 建立 一 个 命名 管道 ， 具 体 可 以 使 用 命令 mknod 米 建立 。 例 如 : 
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% mknod mypipe p. 


这 里 的 参数 “p” 表 示 所 建立 的 节点 《也 即 特殊 文件 ) 的 类 型 为 命名 管道 。 当 然 ， 也 可 以 在 程序 中 
通过 系统 调用 mknod( ) 来 达到 同样 的 目的 ,只 不 过 此 时 在 调用 参数 mode 中 此 设置 一 个 标志 位 S_IFIFO, 
表示 要 创建 的 是 一 个 FIFO X ff. 

建立 了 这 样 的 节点 以 后 ， 有 关 的 进程 就 可 以 像 打开 一 个 文件 一 样 地 来 “打开 ”与 这 个 命名 管道 的 
联系 。 对 FIFO 文件 上 的 操作 由 下 列 几 个 file operations 数据 结构 确定 ， 这 些 代码 都 在 pipe.c 中 。 


378 /*® 

379 * The file operations structs are not static because they 
380 * are also used in linux/fs/fifo.c to do operations on FIFOs. 
381 */ 

382 struct file operations read fifo fops - | 
383 llseek: pipe_lseek, 

384 read: pipe read, 

385 write: bad pipe w, 

386 poll: fifo poll, 

387 ioctl: pipe_ioctl, 

388 open: pipe_read open, 

389 release: pipe read release, 

390 ë }; 

391 

392 struct file operations write_fifo_fops = | 
393 llseek: pipe lseek, 

394 read: bad pipe r, 

395 write: pipe write, 

396 poll: fifo poll, 

397 ioctl: pipe ioctl, 

398 open: pipe_write_open, 

399 release: pipe write_release, 

400 E 

401 

402 struct file operations rdwr fifo fops - | 
403 llseek: pipe_lseek, 

404 read: pipe read, 

405 write: pipe_write, 

406 poli: fifo poll, 

407 ioctl: pipe ioctl, 

408 open: pipe rdwr open, 

4098 release: pipe rdwr release, 

4100 }; 


对 照 … 下 用 十 普通 管道 的 数据 结构 read pipe fops, write pipe fops LL rdwr pipe fops LE), 

就 可 以 看 出 它们 几乎 是 完全 一 样 的 。fifo_poll( ) pipe. poll( ) 都 用 寸 select( ) 系 统 调用 ， 与 通信 机 制 本 

身 并 无 多 大 关系 ， 我 们 在 这 里 并 不 关心 。 所 不 同 的 只 是 ， 对 于 普通 管道 虽然 也 定义 了 相当 于 open( ) 的 

操作 pipe_read_open( ), pipe_write_open( ) 和 pipe rdwr open( )， 但 是 这 些 珊 数 实际 上 在 典型 的 应 用 中 
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在 不 使 用 的 。 如 前 节 所 述 ， 普 通 管道 是 通过 do_pipe( ) 建 立 , 通过 fork ) 的 过 程 伸展 到 两 个 进程 之 间 的 。 
对 于 父 进程 ， 在 系统 调用 pipe ) 以 后 就 已 打开 ， 而 对 于 子 进程 则 是 与 生 俱 来 的 ， 所 以 都 不 再 需要 再 来 
打开 。 而 命名 管道 就 不 同 了 ， 参 加 通信 的 进程 确实 要 道 过 调用 这 些 函 数 来 “打开 ” 通 向 已 经 建立 在 文 
件 系 统 中 的 FIFO 文件 的 道道 。 

既然 主要 的 不 同 之 处 仅 在 于 “打开 ”的 过 程 ， 我 们 就 来 看 看 ， 个 进程 是 怎样 通过 open( ) 系 统 调 
用 来 建立 与 一 个 已 经 创建 的 FIFO 文件 之 问 的 联系 的 。 读 者 在 “文件 系统 ”.-- 章 中 看 到 ， 进 程 齐 内核 中 
由 sys open( ) 进 入 filp_open(), S&/a 1E open_namei( ) 中 调用 一 个 函数 path_walk()， 根 据 文件 的 路 径 名 
在 文件 系统 中 找到 代表 这 个 文件 的 inode. FE RAH ER inode 读 入 内 存 时 ， 要 根据 文件 的 类 型 (FIFO 
文件 的 S_IFIFO 标志 位 为 1)， 将 inode FIN i op 指针 和 i_fop 指针 设置 成 指向 相应 的 inode_operations 
数据 结构 和 file operations 数据 结构 , 但 是 对 于 像 FIFO 这 样 的 特殊 文件 则 调用 init_special_inode( ) 来 加 
以 初始 化 。 这 段 代 码 在 ext2 read inode( )4! (fs/ext2/inode.c): 


[sys open( ) > filp open( ) > open. namei( ) > path_walk( ) > real lookup( ) > ext2_lookup( ) 
»1get( ) > get new inode( ) > ext2_read_inode( )] 


1059 if (inode-^i ino == EXT2 ACL TDX TNO || 

1060 inode-^i ino == EXT2 ACL DATA INO) 

1061 /* Nothing to do */ ; 

1062 clse if (S ISREG(inode-^i mode)) { 

1063 inode->i_op = &ext2 file inode operations; 

1064 inode->i fop = &ext2 file operations; 

1065 inode-^5i mapping-^a ops = &ext2 aops; 

1066 | else if (S ISDIR(inode—^i mode)) { 

1067 inode-»i op = &cxt2 dir inode operations; 

1068 inode->i_fop = &ext2 dir operations; 

1069 } else if (S ISLNK(inode—^i mode)) { 

1070 if (!inode->i_blocks) 

1071 inode-^i op = &ext2 fast symlink inode operations; 
1072 else { 

1073 inode-^?i op = &page symlink inode operations; 
1074 inode-»i mapping-^a ops = &ext2 aops; 

1075 } 

1076 } else 

1077 init special inode(inode, inode->i_ mode, 

1078 1e32 to cpu(raw inode->i block[0])); 


可 见 ， 只 要 文件 的 类 起 不 是 ACL 索引 或 数据 《〈 均 用 于 访问 权限 控制 )， 不 是 普通 文件 ， 不 是 目录 ， 
NET SIE, BUR FRAICHE, BEE init special inode( ) 米 初始 化 其 inode 结构 (fs/devices.c)。 


[sys open( ) > filp open( ) > open namei( ) > path_walk( ) > real lookup( ) > ext2_lookup( ) 
>iget( ) > get new inode( ) ext2 read inode( ) > init special inode( )] 


200 void init special inode(struct inode *inode, umode t mode, int rdev) 
201 ( 
202 inode->1 mode = mode; 
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203 
204 
205 
206 
207 
208 
209 
210 
211 
212 
213 
214 
215 
216 


} 
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if (S ISCHR(mode)) { 
inode->i_fop = &def chr fops; 
inode->i rdev = to kdev t(rdev); 
) else if (S ISBLK(mode)) | 
inode—->i_fop = &def bik fops; 
inode—^i rdev = to kdev t(rdev); 
inode->i bdev = bdget (rdev) ; 
) else if (S ISFIFO(mode)) 
inode~>i fop = &def fifo fops; 
else if (S ISSOCK (mode) ) 
inode->i fop = &bad sock fops; 
else 
printk(KERN DEBUG "init special inode: bogus imode (50) Wn, mode); 


显然 ,对 于 FIFO 文件 ， 其 inode 结构 中 的 inode. operations 结构 指针 i. op 为 0〈 代 码 中 并 林 设 置 )， 
而 file, operations 结构 指针 i_fop 则 指向 def_fifo_fops， 定 义 于 fs/fifo.c: 


150 
151 
152 
153 
154 
155 
156 
157 


/* 

* Dummy default file-operations: the only thing this does 

* is contain the open that then fills in the correct operations 
* depending on the access mode of the file... 


struct file operations def fifo fops = { 


E 


open: fifo open, /* will set read or write pipe_fops */ 


与 前 - - 节 中 pipe 文件 的 inode 结构 作 一 比较 ， 就 可 以 看 出 对 十 pipe 文件 的 inode 结构 并 没有 走 过 
这 么 个 过 程 ， 与 init special inode( EEEX. XERA pipe 文件 的 inode 结构 不 是 通过 
ext2_read_inode( ) 从 磁盘 上 读 入 ， 而 是 临时 生成 出 来 的 《因而 是 无 和 名、 无形 的 )。 

随后 ， 在 dentry_open( ) 中 将 inode 结构 中 的 这 个 fle_operations 结构 指针 复制 到 file 数据 结构 中 、 
这 样 ， 对 于 命名 管道 ， 在 打开 文件 时 经 由 数据 结构 def_fifo_fops， 就 可 以 得 到 也 数 指针 fifo open, M 
而 进入 函数 fifo_open( )。 有 关 这 个 过 程 的 详情 可 参看 “文件 系统 ”一 章 ， 这 里 我 们 关心 的 是 进入 了 
fifo_open() 以 后 的 操作 。 函 数 fifo_open( ) 的 代码 在 fs/fifo.c F: 


[sys open( ) > filp open( ) > dentry_open( ) > fifo_opent )] 


31 
32 
33 
34 
35 
36 
37 
38 
39 


static int fifo open(struct inode *inode, struct file *filp) 


{ 
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int ret; 


ret = —ERESTARTSYS; 

lock kernel ( ); 

if (down interruptible(PIPE SEM(*inodo))) 
goto err nolock nocleanup; 


40 
4] 
42 
43 
44 
45 
46 
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if (tinode->i_pipe) { 
ret = —ENOMEM; 
if (!pipe_new (inode) ) 
goto err_nocleanup; 


j 


filp-^f. version = 0; 


首先 ， 当 首次 打开 这 个 FIFO 文件 的 进程 来 到 fifo open ) 时 ， 该 管道 的 缓冲 页 面 尚 未 分 配 ， 所 以 在 


42 行 通过 pipe_new( ) 分 配 所 需 的 pipe_inode_info 数据 结构 和 缓冲 页 面 。 以 后 青 米 打开 同一 FIFO 文件 
的 进程 就 会 跳 过 这 一 段 。 冉 往 下 看 fifo.c: 


47 
48 
49 


switch (filp->f mode) | 
case 1: 
/* 
* 0 RDONLY 
* POSIX. 1 says that 0 NONBLOCK means return with the FIFO 
* opened, even when there is no process writing the FIFO, 
*/ 

filp-^f op = &read fifo fops; 

PIPE RCOUNTER C*inode) ++; 

if (PIPE READERS (kinode)++ == 0) 

wake up partner (inode); 


if (!PIPE WRITERS(*inode)) { 
if ((filp-^f flags & O NONBLOCK)) { 
/* suppress POLLHUP until we have 
* Seen a writer */ 
lilp-^f version = PIPE WCOUNTER (*inode) ; 
] else 
{ 
wait for partner(inode, &PIPE WCOUNTER (#inode) ) ; 
if(signal pending(current)) 
goto err rd; 


} 


break: 


case 2: 

/* 

* ( WRONLY 

x POSIX. 1 says that O_NONBLOCK means return -1 with 

* errno=ENXIO when there is no process reading the FTFO. 

*/ 
ret = -ENXIO; 
if ((filpO f flags & O NONBLOCK) && !PIPE READERS (*inode)) 

goto err; 
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82 

83 filp->f_op = &write fifo fops; 

84 PIPE WCOUNTER (inode) ++; 

85 if (!PIPE_WRITERS (*#inode) ++) 

86 wake up partner (inode) ; 

87 

88 if (IPIPE READERS (#inode)) { 

89 wait for partner (inode, &PIPE RCOUNTER (*inode) ) ; 
90 if (signal pending (current) ) 

9] goto err wr; 

92 } 

93 break; 

94 

95 case 3: 

96 /* 

97 * ( RDWR 

98 * POSIX.l leaves this case “undefined” when 0 NONBLOCK is set. 
99 * This implementation will NEVER block on a O_RDWR open, since 
100 * the process can at least talk to itself. 
101 */ 

102 filp->f op = &rdwr_fifo_fops; 

103 

104 PIPE READERS (*inode) ++; 

105 PIPE WRITERS (*inode) ++; 

106 PIPE RCOUNTER (inode) ++; 

107 P1PE WCOUNTER (*inode) ++; 

108 if (PIPE READERS(C*inode) == 1 || PIPE WRITERS(*inode) == 1) 
109 wake up partner (inode) ; 

110 break; 

111 

i112 default: 

113 ret = -EINVAL; 

114 goto err; 

115 } 

116 

117 /* Ok! x/ 

118 up(PIPE SEMC*inode)) ; 

119 unlock kernel( ); 

120 return Q; 

122 err rd: 

123 if (!--P1PE READERS (*inode)) 

124 wake up interruptible(PTPE WAIT (*inode) ) ; 
125 ret = —ERESTARTSYS; 

126 goto err; 

127 

128 err wr: 

129 if (!—PTPE WRITERS (*inode)) 

130 wake up interruptible(PIPE WAIT (#inode)) ; 
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131 ret = -FERESTARTSYS; 

132 goto err; 

133 

134 err: 

135 if (!PIPE READERS (inode) && !PIPE WRITERS (*inode)) | 
136 struct pipe inode info *info = inode->i pipe; 
137 inode->i_pipe = NULL; 

138 free page((unsigned long) info->base) ; 

139 kfree (info): 

140 } 

141 

142 err nocleanup: 

143 up (PIPE_SEM(*inode) ) ; 

144 

145 err_nolock_nocleanup: 

146 unlock kernel ( ); 

147 return ret; 

148} 


FIFO 文件 可 以 按 三 种 不 同 的 模式 打开 ， 就 是 “只 读 ”“ 只 写 ” 以 及 “ 读 写 ?”。 同 时 ， 在 系统 调用 
open( ) 中 还 有 个 参数 flags。 如 果 flags 中 的 标志 位 O_NONBLOCK 为 1， 就 表示 在 打开 的 过 程 中 即使 某 
些 条 件 得 不 到 满足 也 不 要 睡 卢 等待， 而 应 立即 返回 。 在 典型 的 应 用 中 ， 像 对 普通 管道 一 样 ， 一 个 进程 
按 “ 只 读 ” 模 式 打开 命名 管道 ， 成 为 “消费 者 ” 而 田 - 一 个 进程 则 按 “ 只 写 ” 模 式 打 开 命名 管道 ， 成 为 
“生产 者 ”。 可 是 ， 在 普通 管道 的 情况 下 ， 管 道 的 两 端 是 由 间 … 进 程 在 do_pipe( ) 中 同时 “打开 ”的 ， 
而 在 命名 管道 的 情况 下 则 管道 的 两 端 道 常 分 别 由 两 个 进程 先后 打开 ， 这 就 有 了 个 “同步 ”的 问题 。 除 
此 之 外 ， 还 有 个 不 间 ， 就 是 普通 管道 既然 是 “无 名 ”8 尤 形 ”， 一般 就 不 会 有 另 一 个 进程 也 来 “打开 ? 
这 个 管道 。 而 在 命名 管道 的 情况 下 ， 则 任意 一 个 进程 都 可 以 通过 相同 的 路 径 名 打开 同一 个 FIFO 文件 。 
这 些 因素 都 使 建立 命名 管道 的 过 程 比 建立 普通 管道 的 过 程 要 复杂 一 些 。 
先 来 看 命名 管道 的 读 端 ， 也 就 是 按 “ 只 读 ” 模 式 打 开 一 个 FIFO 文件 时 (case 1) 的 儿 种 情况 : 
0) ”如 果 管 道 的 写 端 已 经 打开 ， 那 么 读 端的 打开 就 完成 了 命名 管道 的 建立 过 程 。 在 这 种 情况 下 ， 
写 端的 进程 ， 也 就 是 “生产 者 ”进程 ， 一 般 都 是 正在 睡 虐 中 ， 等 待 着 命名 管道 建立 过 程 的 完 
成 ， 所 以 要 将 其 唤醒 。 然 后 ， 两 个 进程 差不多 同时 返回 到 各 自 的 用 户 空 间 ， 尔 后 就 可 以 通过 
这 命名 管道 进行 通信 了 。 

(2) ”如 果 命 名 管道 的 写 端 尚未 打开 ， 而 flags 中 的 O_NONBLOCK 标志 位 为 |， 表示 不 应 等 待 。 
此 时 读 端 虽 已 打开 ,但 命名 管道 只 是 部 分 地 建立 了 ,而 O NONBLOCK 标志 的 使 用 义 要 求 系 


置 成 PIPE_WCOUNTER(*+inode)， 即 对 本 管道 写 端的 计数 。 这 与 通过 pipe_poll( ) 对 命名 管道 
的 查询 有 关 ， 而 与 读 写 无 关 。 读 者 品 结 合 系统 调用 selec) LE 8 草 “ 字 符 设备 驱动 ”) 阅 
读 其 代码 。 

(3) 如 果 命 名 管道 的 写 端 尚未 打开 ， 出 flags 中 的 O NONBLOCK 标志 位 为 0。 在 这 种 情况 下 ， 
读 端 的 打开 只 是 完成 了 命名 管道 建立 过 程 的 一 半 , 所 以 消费 者 ?进程 要 通过 wait_for_partner( ) 
进入 睡眠 ， 等 待 某 个 “生产 者 ”进程 米 打开 命名 管道 的 写 端 以 完成 其 建立 过 程 。 

不 管 是 哪 一 种 情况 下 ， 读 端 file 结构 中 的 file operations 指针 f_op 都 指向 read_fifo_fops， 为 随后 
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的 读 操作 作 好 了 准备 。 

相应 地 ， 命 名 管道 写 端 的 打开 (case 2) 也 有 以 下 几 种 不 同 的 情况 : 

(1) 如 果 命 名 管道 读 端 已 经 打开 ， 惠 么 写 端 的 打开 就 完成 了 建立 命名 管道 的 过 程 。 在 这 种 情况 下 
位 于 命名 管道 读 端 的 进程 “ 即 “ 消 费 者 ”进程 》 有 可 能 正在 睡 虐 中 等 待 ， 所 以 ， 如 果 当 前 进 
程 是 第 一 次 打开 该 命名 管道 写 端的 进程 ， 就 要 负责 将 其 唤 片 【〈 见 第 85、86 行 ) . 

(2) 如 果 命 名 管道 读 端 尚未 打开 ， 厕 flags 中 的 O_NONBLOCK 标志 位 为 0。 在 这 种 情况 下 “ 生 
产 者 ”进程 点 睡眠 等 待 至 某 个 “消费 者” 进程 打开 该 命名 管道 的 读 端 才能 返 加 |。 

(3) 如 果 命 名 管道 的 读 端 尚未 打 并 ， 而 flags 中 的 O NONBLOCK 标志 位 为 1。 此 时 对 命名 管道 
号 端的 打开 失败 ， 所 以 要 释放 已 经 分 配 的 各 种 资源 而 巡回 一 1。 

至 于 对 FIFO 文件 的 “ 读 写 ”打开 ， 则 相当 于 由 同一 个 进程 同时 打开 了 命名 管道 的 两 端 ， 所 以 不 管 


有 仔 何 一 端 是 第 一 次 打开 ， 就 也 唤醒 了 止 在 睡眠 等 簿 的 进 种。 


命名 管道 一 经 建立 ， 以 后 的 读 、 写 以 及 关闭 操作 就 与 普通 管道 完全 相 问 了 。 注 总 盟 然 FIFO 义 件 的 
inode WARRE, 但 那 只 是 “个 节点 ,而 文件 的 数据 则 只 存在 于 内 存 缓冲 页 而 中 , 与 普通 管道 一 样 。 


号 


wh 


6.4 1 


如 前 所 述 , 信号 (signal， 亦 称 软 中 断 ) 机 制 是 在 软件 层次 上 对 中 断 机 制 的 一 种 模拟 。 从 概念 上 说 ， 
一 个 进程 接收 到 一 个 信号 与 一 个 处 理 器 接收 到 一 个 中 断 请 求 是 一 样 的 。 而 一 个 进程 可 以 问 刀 一 个 (或 
另 一 组 ) 进程 发 送信 号 ， 也 跟 在 多 处 理 器 系统 中 一 个 处 理 器 可 以 向 其 他 处 理 器 发 出 中 断 请 求 一 样 。 当 
然 ， 对 一 个 处 理 器 的 中 断 请 求 并 不 一 定 来 自 其 他 处 理 器 ， 也 可 以 是 来 自 各 种 中 断 源 ， 甚 至 来 自 处 理 器 
木 身 。 相 应 地 ， 信 和 号 也 不 一 定 都 来 自 其 他 进程 ， 也 可 以 来 月 不 同 的 来 源 ， 还 可 以 来 目 本 进程 的 执行 。 
更 重要 的 是， 二 者 都 是 “异步 ”的 。 处 理 器 在 执行 一 段 程序 时 并 不 需 昌 停 下 来 等 符 中 断 的 发 生 ， 也 不 
知道 中 断 会 在 何 时 发 生 。 信 号 也 是 一 样 ， 一 个 进程 并 不 需要 通过 一 个 什么 操作 来 等 等 信 号 的 到 达 ， 也 
不 知道 什么 时 候 会 有 信号 到 达 。 

事实 上 ， 在 所 有 的 进程 问 通讯 机 制 中 只 有 信和 号 是 异步 的 。 二 者 之 闻 的 这 种 相似 和 类 比 不 仪 仅 是 概 
念 上 的 , 也 体现 在 它们 的 实现 上 .就 像 在 中 断 机 制 中 有 一 个 中断 向 量 表 S FE e SEI ETE task. struct 
结构 中 都 有 个 指针 sig， 指 向 一 个 signal struct 结构 ， 这 个 结构 就 不 妨 称 为 “信号 问 量 表 ”。 在 中 其 机制 
中 ， 对 每 种 中 断 请 求 都 可 以 加 以 谋 蔽 而 不 让 处 理 器 对 之 作出 响应 ， 在 信号 机 制 中 也 有 类 似 的 手段 。 妆 
然 ， 由 于 中 断 机 制 是 通过 硬件 和 软件 的 结合 来 实现 的 ， 出 信号 则 纯粹 由 软件 实现 ， 所 以 在 具体 的 细 市 
上 必然 有 所 不 同 。 但 是 如 果 将 二 者 对 照 起 来 看 ， 就 可 以 看 出 信号 机 制 中 的 有 些 数据 结构 和 算法 实际 上 
就 是 对 中 断 机 制 中 “ 些 使 件 特征 的 模拟 。 同 时 ， 正 是 由 于 二 者 间 的 相似 ， 在 中 断 处 理 中 可 能 碰 到 的 问 


带 来 类 似 的 问题 。 正 因为 这 样 ， 读 者 在 阅读 本 节 时 不 妨 多 多 回顾 利 对 赂 “中 断 与 异 和 ” 那 章 中 的 有 关 
段落 。 

人 们 对 信号 与 中 断 的 相似 性 《以 及 其 他 - - 些 问题 ) 并 不 是 一 开始 就 充分 认识 和 深刻 理解 的 。 早 期 
Unix 系统 中 的 信号 机 制 比较 简单 和 版 始 ， 没 有 充分 吸 到 在 路 断 处 理 方 面 所 税 累 的 经 验 ， 后 来 在 实践 中 
暴露 出 一 些 问 题 而 被 称 为 “不 可 靠 信 和 导 ”。 正 因为 这 样 ， 在 各 种 Unix 的 变型 版 本 中 就 纷纷 对 信号 机 制 
加 以 扩充 ， 以 实现 “可 靠 信 号 ”% 在 这 方面 最 主 此 的 有 BSD 和 AT&T 分 别 企 4.2BSD、4.3BSD 和 SVR3 
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中 所 作 的 扩充 。 但 是 ， 这 种 分 别 进行 的 扩充 使 不 同 版 本 问 的 菩 容 性 成 了 问题 ， 所 以 后 来 又 在 POSIX.1 
和 POSIX.4 两 种 标准 中 对 信号 机 制 进行 了 标准 化 。 其 中 POSIX. XE Joss sumi uc, m 
POSIX.4 则 规定 了 对 信和 与 机 制 的 扩充 , 后 者 是 POSIX.1 的 - -个 超 集 。Linux 内 核 的 信号 机 制 符合 POSIX.4 
的 规定 。 不 过 ，POSIX 只 规定 了 信号 机 制 的 功能 和 应 用 界面 ， 并 没有 规定 如 何 实现 。 例 如 ， 同 -一 种 功 
能 可 以 在 操作 系统 内 核 中 实现 ， 也 可 以 企 库 程序 中 实现 ， 所 以 有 些 非 Unix 类 的 操作 系统 也 串 能 支持 
POSIX. 

既然 信号 机 制 与 中 断 机 制 在 概念 上 起 BUN, RM A E “Pe” FRI "eu Sy RU 
开始 。 如 前 所 述 ， 每 个 进程 的 task struct 结构 中 都 有 -个 指针 sig， 指 向 一 个 signal struct 结构 。 这 个 
数据 结构 类 型 是 在 include/linux/sched.h 中 定义 的 : 


235 struct signal struct { 


236 atomic t count ; 

237 struct k sigaction action| NSIG]; 
238 spinlock t siglock; 

239 }; 


结构 中 的 数组 action RAMPS “TAMA”, 数组 中 的 每 个 元 素 就 相当 寺 一 个 “信和 号 各 


程序 一 样 。 不 过 ,“ 信 和 号 向 量 ” 有 汤 的 特 折 之 处 ， 除 指向 一 个 信和 号 处 理 程序 以 外 ， 它 还 可 以 是 两 个 特殊 
常数 SIG_DFL 和 SIG_IGN 之 “， 分 别 表 示 应 该 对 该 信号 采取 “默认 ”(default) 的 反应 或 者 忽略 而 不 
作 任何 反应 。 下面 给 出 这 肉 个 常数 的 定义 ， 见 文件 include/asm-i386/signalh: 


131 #define SJG DFL ((  sighandler t)0) /* default signal handling */ 
132 #define SIG_IGN ((__sighandler t)1) /* ignore signal */ 
133 #define SIG ERR ((__sighandler t)-1)  /* error return from signal */ 


由 于 SIG_DFL HRA 0, SBR AY “ZA” HARARE gm EARE SIG_DFL. 

“Ais eR” Ln "EU A EN eb, KZA, mI REA, 
每 个 中 断 内 量 所 指向 的 中 断 响应 程序 也 在 系统 空间 中 。 然 而 ， 虽 然 “ 信 和 号 向 量 才 ”也 在 系统 空间 中 ， 
可 是 这 些 “向量” 所 指向 的 处 球 程 序 却 般 都 是 在 用 户 空间 中 。 

对 信号 的 检测 与 响应 总 是 发 生 在 系统 空间 ， 通 常 发 生 在 两 种 情况 下 : 第 一 ， 当 前 进程 由 于 系统 调 
用 、 中 断 或 异常 而 进入 系统 空 岂 以 后 ， 从 系统 完 问 返回 到 用 户 空间 的 前 夕 。 第 二 ， 当 前 进程 在 内核 中 
进入 睡眠 以 后 刚 被 唤醒 的 时 候 ， 由 十 们 号 的 存在 而 提前 返回 到 用 户 空间 。 当 有 信号 要 响应 时 ， 处 理 器 
执行 路 线 的 景象 如 图 6.6 所 示 。 

从 图 和 小 不 难看 出 ， 信 号 处 理 程 序 〈 相 当 寺中 断 服 务 程 序 ) 的 启动 、 执 行 及 返回 变 得 复杂 了 ， 读 者 
在 后 面 将 会 看 到 这 些 过 程 是 如 何 实现 的 。 

中 断 向 量 表 中 的 每 个 “向 量 ” 基本 上 是 个 函数 指针 ， 早 期 Unix 系统 中 的 “信号 六 量 胡 ”也 是 一 样 。 
但 是 ， 经 过 扩充 与 改进 ， 现 在 的 “信号 几 星 ”已 经 不 仅仅 是 区 数 指针 了 。 每 个 “信和 号 问 量 ”部 是 一 个 
k sigaction 数据 结构 ， 这 是 在 include/asm-i386/signal.h 中 定义 的 : 
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wW HA; £i 生态 y 
用 户 空间 应 用 程序 继续 执行 应 用 程序 
gs KUNA — OW prem 
men 用 户 空间 
当前 进程 国 系统 调用 /中 断 / 异 常 ” 转 向 用 户 空间 中 执行 信 另 处 理 程 序 执行 完 
而 进入 内 核 信号 处 理 程序 毕 后 返回 到 内 核 中 


图 6.6 信号 的 检测 与 处 理 流程 图 


156 struct sigaction { 


157 union { 

158 . sighandler t sa handler; 

159 void (* sa sigaction) (int, struct siginfo *, void *); 
160 } u; 

161 sigset_t sa_mask; 

162 unsigned long sa_flags; 

163 void (*sa_restorer) (void) ; 

164 č }y; 


这 里 的 _sa_handler 和 _sa_sigaction 部 是 函数 指针 。 数 据 类 型 _sighandler t 也 是 在 signalh 中 定义 
的 : 


129 typedef void (*__sighandler_t) (int); 


T/A, sa handler 和 _sa_sigaction 只 是 在 调用 时 的 参数 表 不 同 ， 具 体 将 _u 解释 成 哪 一 个 指针 取决 
于 具体 的 约定 。 

另 一 个 指针 sa restorer 现在 己 经 基本 不 内 了 , 但 是 sa_mask 和 sa. flags 两 个 字段 却 扮演 着 重要 的 角 
色 。 

先 来 看 sa_mask。 简 单 地 说 ，sa_mask 起 一 个 “位 图 ” 其 中 的 每 一 位 都 对 应 着 一 种 信和 号。 如 果 位 
图 中 的 某 -位 为 1， 就 表示 在 执行 当前 信号 的 处 理 程 序 期 间 要 将 相应 的 信号 暂时 “屏蔽 ” 使 得 在 执行 
的 过 程 中 不 会 嵌 套 地 响应 那 种 信号 。 特 草地， 不 管 位 图 中 的 相应 位 是 合 为 1， 当 前 信号 本 身 总 是 自动 屏 
藤 ， 使 得 对 同一 种 信号 的 处 理 不 会 嵌 套 发 生 ， 除 非 sa_flags 中 的 SA_NODEFER 或 SA_NOMASK ^is 
为 1。 显然 ,这 正 是 借鉴 了 在 中 断 服 务 中 关闭 中 断 以 防止 柑 佑 的 经 验 ， 对 才 熟 悉 中 断 机 制 的 读者 来 说 似 
平 并 不 是 什么 深奥 的 道理 ， 可 是 这 却 是 将 “不 可 靠 信 人 号 ”改进 成 “可 靠 信号 ”的 关键 性 的 cb. TER 
期 Unix 系统 的 信号 机 制 中 ， 当 时 的 设计 人 员 似 乎 认为 异种 信号 处 理 的 髓 套 不 是 什么 问题 ， 而 同 种 信和 与 
处 理 的 嵌 套 可 以 通过 -一 种 简单 的 方法 米 避 免 。 怎 么 避免 紧 ?” 邢 束 是 ， 每 当 执 行 “个 信号 处 理 程 序 时 ， 
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就 由 内 核 自动 将 “信号 向 量 表 ” b qaid S SIG_ DEFL。 从 页， 在 执行 : 个 信和 号 处 理 程序 
的 过 程 中 如 果 又 接收 到 同 种 信号 的 话 ， 就 会 因为 此 时 的 “信和 号 向 量 ” 已 经 改 成 SIG_DFL MAS iE 
入 同一 个 处 理 程序 。 这 样 ， 应 用 程序 所 设 党 的 “信号 向 量 ” 就 是 “ -次 性 ”的 ， 所 以 信号 处 理 程 序 中 
在 完成 了 需要 防止 嵌 合 的 部 分 以 后 就 于 再 次 设置 信和 号 向 量 , 为 卜 一 次 执行 间 ， 信 和 号 处 理 程序 作 好 准备 。 
这 套 方案 看 起 来 似乎 可 行 ， 但 是 在 实践 中 却 碰 到 了 问题 。 一 种 典 起 的 情景 就 是 对 CTRL_C 的 处 埋 。 大 
家 知道 ， 在 键盘 上 启动 - -个 程序 后 ， 按 一 F CTRL_C 通常 会 使 正在 运行 的 程序 “流产 ”， 这 实际 上 就 起 
道 过 信和 号 机 制 来 实现 的 。 当 在 键盘 上 按 CTRL_C 时 ， 内 核 会 向 相应 的 进程 发 出 :个 SIGINT 信和 号， 而 
对 这 个 信号 的 “默认 ”反应 就 是 通过 do_exit( ) 结 束 运 行 。 有 些 应 用 程序 对 CTRL_C 的 作用 男 有 安排 ， 
所 以 就 要 为 SIGINT 另行 设置 一 个 “ 装 量 ”使 它 指向 应 用 程序 中 的 一 个 限 数 , 在 邦 个 函数 中 对 CTRL_C 
这 个 事件 作出 响应 ， 并 再 次 设置 (或 “恢复 ”) 该 信号 向 量 ,为 下 次 CTRL_C 事件 作 好 准备 。 品 是， 
在 实践 中 却 发 现 ， 两 次 CTRL C 事件 往往 过 于 密集 ， 有 时 候 刚 进入 信和 号 处 理 程 序 ， 还 没有 来 得 及 重新 
设置 信号 向 量 ， 第 一 个 信号 就 到 达 了 。 由 于 此 时 向 量 表 中 对 应 于 SIGINT 的 向 量 已 在 髓 动 其 处 理 程序 
时 自动 改变 成 SIG. DEL, 而 对 SIG. DEL 信号 的 默认 反应 又 是 结束 进程 的 运行 ,所 以 第 二 个 SIGINT 信 
多 的 到 来 就 往往 把 进程 “ 杀 ” 了 。 丰 因为 这 样 ， 早 期 的 信号 机 制 被 称 为 “不 可 靠 信 号 ”。 从 这 里 人 们 得 
出 了 一 些 教 训 。 首 先 信号 问 量 不 应 该 是 “一 次 性 ”的 ， 也 就 是 不 应 该 在 执行 相应 处 理 程 序 时 将 向 量 改 
成 SIG_DFL。 其 次 ， 在 执行 “个 信号 处 理 程序 的 过 程 中 应 将 该 种 信号 自动 屏蔽 卸 ， 以 防 同 一 处 理 程序 
的 左 套 。 此 外 ， 还 应 该 有 一 个 手段 ， 使 应 用 程序 可 以 在 执行 处 理 程序 的 期 间 有 选择 地 将 若 十 种 其 他 信 
号 屏蔽 掉 ， 这 就 是 sa_mask FKL). Aria “BRR”, SHES AMER BAM. CHAS emp ORE 
m”— PF, ~B RRA LER. 已 经 到 达 的 信和 号 仍旧 还 在 。 位 图 sa mask 的 类 型 为 sigset_b 这 也 起 在 signal.h 
中 定义 的 : 


13 "define _NSIG 64 

14 Hdefine NSIC BPW 32 

15 Hdefine NSIG WORDS ( NSIG / _NSIG BPW) 

16 

17 typedef unsigned long old sigset t; /* at least 32 bits */ 
18 

19 typedef struct { 

20 unsigned long sig[ NSIG WORDS]; 


21 ) sigset t; 


这 种 数据 结构 主要 用 来 模拟 中 斯 控制 器 〈 如 Intel 8259) PAY “THR ESS” m pis Ry 
TE", task, struct 结构 中 的 blocked EUH SF“ FBT bE RAS FERS”. 以 前 task. struct 结构 中 还 有 个 sigset t 
数据 结构 signal, 就 是 相当 于 “中 断 请 求 寄存 器 ”后 来 把 它 移入 了 sigpending 数据 结构 中 (现在 task_struct 

结构 中 有 个 sigpending 数据 结构 pending). 注意 这 里 的 _NSIG 正 是 前 述 数组 action[ ] 的 大 小 。 早期 Unix 
系统 中 只 定义 了 32 种 信号 ， 所 以 只 要 一 个 无 符号 长 整数 就 可 容纳 了 。 而 现在 ，Linux 以 及 POSIX.4) 
定义 了 64 种 信和 号， 将 来 也 许 还 会 增加 ， 所 以 才 有 以 上 的 定义 。 

再 来 看 sa, flags 中 的 标志 位 ， 它 们 的 定义 也 在 signal.h 中 : 


13 /* 
74 * SA FLAGS values: 
75 * 
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76 * SA ONSTACK indicates that a registered stack t will be used. 

TT * SA INTERRUPT is a no-op, but left due to historical reasons. Use the* SA RESTART 
flag to get restarting signals 

78 (which were the default long ago) 


19 * SA NOCLDSTOP flag to turn off SIGCHLD when children stop. 

80 * SA RESETHAND clears the handler when the signal is delivered. 

81 * SA NOCLDWAIT flag on STGCHLD to inhibit zombies. 

82 * SA NODEFER prevents the current signal from being masked in the handler. 
83 * 

84 * SA ONESHOT and SA NOMASK are the historical Linux names for the Single 
85 * Unix names RESETHAND and NODEFER respectively. 

86 */ 


87 &define SA NOCLDSTOP 0x00000001 
88 Sdefine SA NOCLDWAIT 0x00000002 /* not supported yet */ 


89 ttdefine SA SIGINFO 0x00000004 
90 ttdefine SA ONSTACK 0x08000000 
91 define SA RESTART 0x10000000 
92 #define SA NODEFER 0x40000000 


93 &define SA RESETHAND 0x80000000 


这 些 标 志 位 的 作用 以 后 读 了 有 关 的 代码 就 会 清楚 ， 但 是 有 几 个 标志 位 特别 值得 提 。 一 个 是 
SA_SIGINFO。 这 个 标志 位 为 1 表示 信号 处 于 程序 有 三 个 参数 (否则 只 有 个， 即 所 处 理 的 信号 本 身 的 
标识 号 ， 如 SIGINT)， 其 中 之 一 为 指向 一 个 siginfo_t 数据 结构 的 指针 。 与 siginfo_t 有 关 的 数据 结构 和 
常数 都 是 在 include/asm-i386/siginfo.h 中 定义 的 : 


8 typedef union sigval { 


9 int sival_int; 
10 void *sival ptr; 
i1 } sigval t; 

12 


13 Hdefine SI MAX STZE 128 
14 Hdefine SI PAD STZE ((SI MAX STZE/sizeof(int)) - 3) 


15 

16 typedef struct siginfo | 

17 int si_signo; 

18 int si errno; 

19 int si code; 

20 

21 union | 

22 int pad[SI PAD SIZE]; 

23 

24 /* kill€ ) */ 

25 struct { 

26 pidt pid; /* sender s pid */ 
21 uid t uid; /* sender s uid */ 
28 } kill; 

29 
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30 /* POSIX. lb timers */ 

31 struct | 

32 unsigned int _timerl; 

33 unsigned int timer2; 

34 } timer; 

35 

36 /* POSTX. lb signals */ 

37 struct. { 

38 pid_t _pid; /* sender's pid */ 
39 uid_t _uid; /* sender's uid */ 
40 sigval_t sigval; 

4l } rt; 

42 

43 /* SIGCHLD */ 

44 struct { 

45 pid t pid; /* which child */ 
46 uid t uid; /* sender’ s uid */ 
4T int status; /* exit code */ 
48 clock t _utime; 

49 clock t _stime; 

50 ) sigchld; 

51 

52 /* SIGILL, STGFPE, SIGSEGV, SIGBUS */ 
53 struct | 

54 void * addr; /* faulting insn/memory ref. */ 
55 ) sigfault; 

56 

57 /* SIGPOLL */ 

58 struct { 

59 int band; /* POLL IN, POLL OUT, POLL MSG */ 
60 int _fd; 

61 | sigpoll:; 

62 ) _sifields; 


63 } siginfo t; 


如 前 所 述 ， 信 号 机 制 是 对 中 断 机 制 的 模拟 。 就 像 中 断 请 求 样 ，( 早 期 的 ) 信号 所 载 送 的 信息 是 二 
元 的 ， 也 就 是 “有 ”或 “没有 ”， 仅 此 击 已 。 在 中 断 机 制 中 ， : 般 都 是 山中 断 服务 程序 来 读 相 应 外 设 的 
状态 寄存 器 以 获取 进 步 的 信息 ， 所 以 传统 的 信号 也 得 要 与 其 他 的 手段 相 结 合作 能 完成 一 些 信 息 量 要 
求 稍 大 的 通信 。 针 对 这 个 缺点 ， 改 进 后 的 信号 机 制 使 通信 的 双方 可 以 随 信号 -起 传递 一 个 siginfo_t XX 
据 结 构 以 及 一 个 void 指针。 其 中 siginfo t 结构 的 主体 是 一 个 union, 根据 信号 类 型 si signo 的 值 而 赋予 
不 同 的 解释 ， 和 而 void 指针 所 指 的 数据 类 型 则 由 遂 信 的 双方 白 行 约定 。 

此 处 先 将 Linux 信号 的 专用 名 、 定 义 值 以 及 默认 反应 等 项 信息 列 十 表 6.1。 
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表 6.1 Linux 信号 专用 名 、 定 义 值 与 默认 反应 

信号 名 定义 值 用 途 或 来 源 默认 的 反应 
SIGHUP l 控制 TTY 断 开 连接 ERE II: 
SIGINT 2 Ar ARA ET CTRL_C ELE SIR 
SIGQUIT 3 TTY & fX Ef CTRL ^ 进程 流产 (core) 
SIGILL 4 TREES CRD) 进程 流产 《core) 
SIGTRAP 5 遇 到 debug 断 点 ， 用 于 调试 进程 流产 core) 
SIGABRT 6 使 进程 流产 进程 流产 core) 
SIGIOT 6 同上 同上 
SIGBUS 7 访问 内 存 失 败 进程 流产 Core) 
SIGFPE 8 Rie FT n IER dS Xf" (ore) 
SIGKILL 9 ‘PURE IE CAN A) BR RD 进程 终止 
SIGUSRI 10 由 应 用 软件 自行 定义 和 使 出 忽略 
SIGSEGV 11 越界 访问 内 存 进程 流产 (core) 
SIGUSR2 12 由 应 用 软件 白 行 定义 和 使 用 忽略 
SIGPIPE 13 TERA CENI XD 进程 终 小 
SIGALRM 14 出 setitimer( )& ERST ZEN AB n 忽略 
SIGTERM 15 使 进程 终止 | 进程 终止 
SIGSTKFLT 16 用 于 堆栈 出 错 〈 尚 本 使 用 ) 进程 终止 
SIGCHLD 17 用 于 子 进程 终止 忽略 
SIGCONT 18 进程 继续 运行 ， 与 SIGSTOP 结合 使 用 忽略 
SIGSTOP 19 进程 暂停 运行 ， 转 入 TASK_STOPPED 状态 进程 暂停 
SIGTSTP 20 CTRL Z, HERE "fti" (TASK_STOPPED ) 进程 暂停 
SIGTTIN 21 后 台 进 程 读 控制 终端 时 使 用 进程 暂停 
SIGTTOU 22 ri e ERES Fe b i INST EH 进程 暂停 
SIGURG 23 用 于 紧急 IO 状况 忽略 
SIGXCPU 24 进程 使 用 CPU 已 超出 限制 进程 终止 
SIGXFSZ 25 文件 大 小 超出 限制 
SIGVTALRM 26 H setitimer( i AS “RET” APT SS BU Ex 进程 终止 
SIGPROF 27 EH setitimer() 设 置 的 “统计 ”定时 器 到 点 进程 终 下 
SIGMNCH 28 控制 终端 窗口 的 大 小 被 改变 忽略 
SIGIO 29 用 十 异步 IO 进程 终止 
SIGPOLL 29 用 于 异步 vo 进程 终止 
SIGPWR 30 用 于 电源 失效 过 程 终止 
SIGUNUSED 31 保留 ， 林 使 用 进程 终止 
SIGRTMIN 32 从 SIGRTMIN 至 SIGRTMAX 为 “实时 ”信号 进程 终止 
SIGRTMAX (_NSIG—1) 





以 前 ,进程 的 task_struct 结构 中 有 两 个 位 图 (sigset_t 结构 )signal 和 blacked( 现 在 signal 在 task. struct 
结构 内 部 的 sigpending 结构 pending 中 )， 分 别 用 来 模拟 中 断 控制 器 硬件 中 的 中 断 状态 (或 者 说 中 断 请 
求 ) 寄存 器 和 中 断 诫 蔽 寄存 器 。 每 当 有 :个 中 断 请 求 到 来 时 ， 中 断 状 态 寄 存 露 中 与 之 相应 的 汞 “位 网 
被 置 成 1, 表示 有 相应 的 中 断 请 求 在 等 竺 处理， 并 且 ， :站 要 到 中 断 响 应 程序 读 出 这 个 寄存 器 时 才 义 被 清 
0。 如 果 连 续 有 两 次 中 断 请 求 到 来 ， 则 有 可 能 因为 处 理 器 来 不 及 响应 而 被 “合并 ”， 因 为 中 断 状态 寄存 
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器 中 基体 的 状态 位 一 旦 被 置 成 ] 以 后 (在 清 0 之 前 ) 就 反映 不 出 到 底 被 连续 几 次 置 1。 在 中 断 机 制 中 这 
并 不 是 什么 问题 ， 因 为 通 营 中 断 啊 应 程序 在 检测 到 某 个 中 断 “ 通 道 ” 中 有 中 断 请 求 就 会 “ 轮 询 ” 连 接 


并 ”效应 只 是 形式 上 的 ， 不 是 实质 性 的 。 

可 是， 在 信号 机 制 中 就 不 同 了 。 接 收 到 信号 的 进程 无 法 “ 轮 询 ” 所 有 可 能 的 信号 来 源 。 因 此 ， 在 
言 号 机 制 中 这 种 “合并 ”效应 是 实质 性 的 。 解 决 这 个 问题 的 出 路 在 十 为 信号 准备 :个 队列 ， 每 产生 一 
个 信和 写 斌 把 它 挂 入 这 个 队列 ， 这 样 就 可 以 确保 一 个 信号 也 不 会 丢失 了 。 所 以 ， 就 在 task struct 结构 中 
设置 了 一 个 信号 队列 , 后 来 又 把 task struct 结构 中 的 信号 队列 和 信号 位 图 合并 成 为 一 个 sigpending 数据 
结构 ， 定 义 于 include/linux/signal.h F: 


17 struct sigpending { 


18 struct siggucuc *head, **tail;: 
19 sigset t signal; 
20  ]; 


顺便 提 一 下， 在 task struct 中 还 有 两 个 用 于 信号 机 制 的 成 分 。 一 个 是 sas_ss_sp， 用 于 记录 当 进 程 
在 用 户 空间 执行 信号 处 理 程序 时 的 堆栈 位 置 。 另 一 个 是 sas_ss_size， 那 就 是 堆栈 的 大 小 。 下 面 我 们 列 
出 task. struct 数据 结构 中 所 有 与 信号 有 关 的 成 分 ， 以 便 查 阅 ; 


277 struct task_struct { 


MMC SV 


283 int sigpending; 
317 int exit code, exit signal; 
318 int pdeath signal; /* The signal sent when the parent dies */ 


© 9 & c č a — 5 


379 /* signal handlers */ 


380 spinlock t sigmask lock; /* Protects signal and blocked */ 
381 struct signal struct *sig; 

382 

383 sigset t blocked; 

384 struct sigpending pending; 

385 

386 unsigned long sas ss sp; 

387 size_t sas ss size; 

397} ; 


注意 在 task. struct 结构 中 有 个 字段 册 sigpending， 是 个 整数 ， 用 来 表示 这 个 进程 是 否 有 信号 在 等 待 
处 理 ; 而 上 述 的 sigpending 数据 结构 则 包括 一 个 信号 队列 和 一 个 信号 位 图 ， 不 要 把 两 个 sigpending 搞 
BI. 

上 述 的 种 种 改进 无 疑 是 很 有 必要 的 ， 但 是 可 异 来 久 了 。 在 作出 这 些 改进 之 前 ， 人 和 们 已 经 在 Unix 上 
开发 了 很 多 使 用 信号 的 软件 。 就 信 与 的 使 用 而 言 ， 这 些 软件 在 相当 程度 上 可 以 说 是 为 早期 欠 成 熟 的 信 
号 机 制 量 身 定做 的 。 现 在 对 信号 机 制 有 了 改进 ， 但 是 对 这 些 已 经 存在 的 软件 还 要 保证 它们 能 在 新 的 环 
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境 中 “发 挥 余热 风 并 且 不 改变 其 运行 时 的 “习性 ”。 显然 ， 比 较 简 单 的 办 法 是 保 曾 原先 已 经 定义 的 (31 
个 ) 信号 不 变 (包括 有 关 的 系统 调用 以 及 使 用 方式 )， 而 另外 肯定 义 一 些 新 的 信 与 《和 : 些 新 的 系统 调 
用 )， 对 这 些 新 的 信号 则 实施 改进 了 的 信号 机 制 。 在 实践 中， 这 种 对 “ 老 编 制 ” 实 行 “ 老 政策 ”“ 新 编 
制 ” 实 行 “ 新 政策 ”的 现象 常常 是 不 可 避免 的 。 另 一 方面 ， 仔 细 想 下 就 可 以 明白 ， 上 述 的 这 些 改 进 
其 实 大 多 是 跟 时 间 有 关 的 ， 所 以 把 新 增加 的 信和 号 称 为 RT【〈 实 时 ) fa. MA SIGRTMIN 到 SIGRTMAX 
全 都 是 这 些 RT 信和 号。 不 过 ， 这 里 要 注意 不 此 被 RT 这 两 个 宁 杜 迷惑 了 ， 这 些 信 号 与 一 般 意 义 上 的 “ 实 
时 ”并 没有 关系 。 例 如 ， 这 些 信 生 的 传递 不 比 普通 的 信号 快 ， 也 没有 时 间 上 的 怀 庄 。 

有 了 上 面 这 些 预备 知识 ， 我 们 就 可 以 开始 介绍 代码 了 。 

先 在 “信号 向 量 ”， 也 就 是 信号 处 理 程序 的 “安装 ” 其 作用 类 似 于 中 断 间 量 的 设置 。Linux 为 此 提 
供 了 一 个 系统 调用 。 第 一个 是 “传统 的 ” 老 的 调用 : 


sighandler t signal (int signnm , sighandler t handler Ea 





这 里 的 数据 类 型 sighandler_ 为 指向 信号 处 理 程序 的 函数 指针 。 调 用 的 参数 有 两 个 ， 一 个 是 信号 的 
定义 值 signum (41 SIGINT)， 另 一 个 就 是 指向 出 几 户 定义 的 该 信号 处 理 程序 的 涵 数 指针 handler。 不 过 
handler 也 可 以 是 两 个 特殊 值 之 一 ， 即 SIG_IGN 或 SIG_DFL， 分 别 表示 忽略 该 信号 或 采取 对 此 信号 的 
扶 认 反应 。 系 统 调用 的 返回 代为 该 信号 原先 的 handler。 其 他 两 个 系统 调用 则 是 新 的 ， 但 是 华 用 户 程序 
设计 界面 上 却 作为 相同 的 库 函 数 出 现 : 


int sigaction (int signum, const struct sigaction * newact, struct *sigaction oldact); 


这 个 库 函 数 会 根据 信号 的 编写 不 间 , 确定 应 该 落实 系统 调用 sys. sigaction( ) 还 是 sys. rt. sigaction( ). 

这 里 的 signum 还 是 一 样 ， 而 newact 和 oldact 为 两 个 指向 sigaction 数据 结构 的 指 外 。 其 ' newact 
所 指向 的 结构 为 新 的 、 待 设置 的 向 量 ， 侧 oldact 所 指 则 为 用 来 返回 老 向 量 的 数据 结构 。 

像 其 他 系统 调用 一 样 ， 它 们 在 内 核 中 的 入 口 分 别 为 sys signa )， sys_sigaction( ) 和 
sys rt sigaction( )。 函 数 sys_signal( ) 是 在 kernel/signal.c 中 定义 的 : 


1244 /* 

1245 * For backwards compatibility. Functionality superseded by sigaction. 
1246 */ 

1247 asmlinkage unsigned long 

1248 sys signal (int sig, __sighandler_t handler) 

1249 { 

1250 struct k sigaction new sa, old sa; 

1251 int ret; 

1252 

1253 new sa.sa.sa handler - handler; 

1254 new sa.sa.sa flags - SA ONESHOT | SA NOMASK; 

1259 

1256 ret = do sigaction(sig, &new sa, &old sa); 

1251 

1258 return ret ? ret : (unsigned long)old sa.sa.sa handler; 
1259  ] 
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函数 sys_rt_sigactionf ) 也 在 同一 个 文件 中 ， 


1187 asmlinkage long sys rt sigaction(int sig, const struct sigaction *act, 
1188 struct sigaction *oact, 

1189 size t sigsetsize) 

1190 { 

1191 struct k sigaction new sa, old sa; 

1192 int ret = -EINVAL; 

1193 

1194 /* XXX: Don’t preclude handling different sized sigset t's. */ 
1195 if (sigsetsize != sizeof(sigset 1)) 

1196 goto out; 

1197 

1198 if (act) { 

1199 if (copy from user(&new sa.sa, act, sizeof (new. sa. sa))) 
1200 return -EFAULT; 

1201 } 

1202 

1203 ret = do_sigaction(sig, act ? &new sa : NULL, oact ? &old sa : NULL) ; 
1204 

1205 if (!ret && oact) | 

1206 if (copy to user(oact, &old sa.sa, sizeof(old sa. sa) ) ) 

1207 return -EFAULT; 

1208 } 

1209 out: 

1210 return ret; 

1211 } 


ELA — PF aT EA, PY SPR AES ABA do_sigaction( ) 完 成 具体 的 操作 。 所 不 同 的 是 ， 
sys signal( ) 从 应 用 程序 得 到 的 信息 量 较 少 (只 有 handler), 同时 又 要 保持 早期 Unix 中 系统 调用 signal( ) 
相同 的 性 状 , 所 以 将 new_sa.sa.sa_flags 固定 设 成 (SA_ONESHOT1SA_NOMSK )。 标 志 位 SA_ONESHOT 
表示 所 设置 的 向 量 是 “一 次 性 ”的 ， 也 就 是 要 按 传统 的 方式 ， 在 使 用 了 所 设置 的 函数 指针 -以 后 就 将 其 
改 成 SIG_DPFL， 而 用 户 空间 中 的 信号 处 理 程序 则 负 有 再 次 调用 signa ) 恢 复 该 向 量 的 责任 。 另 一 个 标 
志 位 SA_NOMSK,， 则 表示 在 执行 信号 处 理 程 序 时 厅 使 用 任何 信号 屏蔽 ， 内 为 最 初 的 信号 机 制 中 是 没有 
信号 屏蔽 这 说 的 。 

33 — AKR sys_sigaction( ) 实 际 上 是 与 sys_rt_sigaction( ) 一 样 的 ， 内 是 细节 上 略 有 不 同 。 首 先 ， 是 在 
sys. sigaction( ) 中 个 存在 第 四 个 参数 sigsetsize。 其 次 ， 也 许 更 重要 的 ， 是 在 sys_sigaction( ) 参 数 表 中 使 
用 的 是 old sigaction 结构 指针 ， 而 不 是 sigaction 结构 指针 。 这 两 种 数据 结构 含有 相同 的 成 分 ， 但 是 这 
些 成 分 在 结构 中 的 次 序 不 同 , 所 以 在 sys_sigaction( ) 中 只 好 把 这 些 成 分 逐 项 地 从 用 户 空间 复制 到 系统 空 
E, MARERE sys_rt_sigaction( ) 中 那样 把 整个 数据 结构 一次 就 复制 过 来 。 读者 也 许 会 好 有 有 有， 为 什么 要 
改变 这 些 成 分 在 数据 结构 中 的 次 序 呢 ? 这 不 是 白 找 麻烦 吗 ? 其 实 这 样 做 是 有 道理 的 。 人 在 old_sigaction 
数据 结构 路 ，sa_mask 挤 在 sa handler 与 sa_flags 中 间 ， 这 样 就 限制 了 sa_mask 进 步 扩充 其 大 小 ， 也 
就 是 定义 更 多 信号 的 可 能 。 所 以 ， 在 sigaction 数据 结构 中 将 sa_mask 移 到 了 末尾 ， 这 样 当 sa_mask 的 
大 小 改变 时 ， 虽 然 sigaction 的 大 小 也 时 随 之 改变 ， 但 各 个 成 分 在 数据 结构 中 的 位 移 却 不 会 改变 。 考 虑 
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到 这 一 点 ， 明 知 这 样 做 会 带 来 不 使 也 只 好 “忍痛 ”了 。 事 实 上 ， 对 于 涉及 内 核 代 码 的 人 来 说 ， 可 能 这 
来 的 混淆 还 真是 不 小 ， 因 为 在 应 用 程序 中 所 用 的 sigaction 数据 结构 却 又 是 对 应 于 内 核 代码 中 的 
oldsigaction 数据 结构 ! 这 完全 要 靠 不 同 的 “.h” 文 件 来 把 它们 区 分 开 来 。 不 过 ， 好 在 内 核 中 用 到 这 个 
数据 结构 的 代码 只 是 很 小 一 段 。 
不 管 怎样 ， 这 三 个 函数 最 终 都 是 调用 do_sigaction( ) 来 完成 的 ， 它 才 是 这 些 系统 调用 的 主体 ， 其 代 
码 也 在 kemel/signalc 中 《注意 ， 在 arch/i386/kernel 日 录 下 也 有 个 signal.c?: 


[sys_signal( ) > do sigaction( )] 


1011 int do sigaction(int sig, const struct k sigaction *act, 

1012 struct k sigaction *oact) 

1013 { 

1014 struct k sigaction *k; 

1015 

1016 if (sig < 1 || sig > NSIG || 

1017 (act && (sig == SIGKILL || sig == SIGSTOP))) 

1018 return -EINVAL; 

1019 

1020 k = &current-^sig-^action[sig-1l]: 

1021 

1022 spin lock(&current-^sig-^siglock); 

1023 

1024 if (oact) 

1025 *oact = *k; 

1026 

1027 if (act) 1 

1028 *k = *act; 

1029 sigdelsetmask(&k-^sa.sa mask, sigmask(SIGKILL) | sigmask(SIGSTOP)); 
1030 

1031 /* 

1032 * POSIX 3.3. 1. 3: 

1033 * "Setting a signal action to SIG IGN for a signal that is 
1034 * pending shall cause the pending signal to be discarded, 
1035 * whether or not it is blocked. ^ 

1036 * 

1037 * "Setting a signal action to SIG DFL for a signal that is 
1038 * pending and whose default action is to ignore the signal 
1039 * (for example, SIGCHLD), shall cause the pending signal to 
1040 * be discarded, whether or not it is blocked" 

1041 * ; 

1042 * Note the siily behaviour of SIGCHLD: SIG IGN means that the 
1043 * signal isn t actually ignored, but does automatic child 
1044 * reaping, while SIG DFL is explicitly said by POSIX to force 
1045 * the signal to be ignored. 

1046 */ 

1047 
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1053 
1054 
1055 
1056 
1057 
1058 
1059 
1060 
1061 
1062 
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if (k->sa.sa_handler == SIG IGN 

|| (k->sa. sa handler == SIG DFL 

&& (sig == SIGCONT || 
sig == SIGCHLD |! 
sig == SIGWINCH))) { 

spin lock irq(&current-^sigmask lock); 

if (rm sig from queue(sig, current)) 
recalc_sigpending (current) ; 

spin unlock irq(&current-^sigmask lock); 


) 


spin unlock (&current-^sig-^siglock); 
return 0: 


系统 对 信号 SIGKILL 和 SIGSTOP 的 响应 是 不 允许 改变 的 ， 所 以 要 放 在 开头 时 加 以 检查 。 同 时 ， 


这 两 个 信号 也 不 允许 被 屏蔽 ,所 以 要 在 径 冬 位 几 k->sa.sa_mask 中 将 与 这 商 个 信号 对 应 的 屏蔽 位 清除 ( 见 
1029 行 )。 信 号 的 数值 是 从 1 开始 定义 的 , 所 以 在 用 信和 号 数值 作为 数组 PRESE SE sig 一 1 而 不 是 sig( 见 
1020 fT). YER 1024 行 和 1028 行 中 的 赋值 都 是 整个 数据 结构 的 赋值 。 


当 新 设置 的 向 量 为 SIG_IGN 时 ,或 者 为 SIG DEL 而 涉及 的 信号 为 SIGCONT、SIGCHLD 和 


SIGWINCH 之 一 时 ,如 果 已 经 有 一 个 或 几 个 这 样 的 信号 在 等 待 处 理 ， 则 按 POSIX 标准 的 规定 此 将 这 些 
已经 到 达 的 信号 丢弃 ， 所 以 通过 rm sig from queue( ) 于 弃 已 经 到 达 的 信和 号。 该 函数 的 代码 在 
kernel/signal.c "P: 


[sys signal( ) > do_sigaction( ) > rm sig from queue( )] 


294 
295 
296 
297 
298 
299 
300 
301 
302 
303 


又 


* 


* Remove signal sig from t-—>pending. 
* Returns 1 if sig was found. 


* 


* All callers must be holding t->sigmask lock. 


*/ 


static int rm sig from queue (int sig, struct task struct *t) 


{ 
} 


return rm from queue(sig, &t->pending) ; 


函数 rm_from_queue( ) 也 在 同一 文件 中 : 


[sys_signal( ) > do_sigaction( ) > rm_sig_from_queue( ) > rm_from_queue( )] 


270 
271 
272 
273 


static int rm from queue(int sig, struct sigpending *s) 


{ 


struct sigqueue ¥*q, **pp; 


727 . 
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274 if ('sigismember (&s—signal, sig)) 

275 return Q; 

276 

277 sigdelset(&s-^signal, sig); 

218 

279 pp = &s->head; 

280 

281 while ((q - *pp) != NULL) { 

282 if (q->info. si_signo == sig) { 

283 if (Okpp = q >next) -- NULL) 
284 s-»iall = pp; 

285 kmem cache free(sigqueue cachep, q) ; 
286 atomic dec(&nr  queued signals); 
281 continue; 

288 j 

289 pp = &q~>next; 

290 } 

291 return 1; 

202  ] 


对 于 传统 的 “ 老 依 号 ”来 说 ， -个 进程 是 否 有 信号 等 待 着 处 理 , 是 由 task. struct 结构 中 的 位 图 signal 
来 反映 的 ， 倍 图 中 的 某 一 位 为 1 就 表示 已 经 接收 到 了 相应 的 信和 号 尚未 处 理 ， 但 是 却 大 从 知道 究竟 接收 
到 了 几 个 同 种 的 信号。 在 这 种 情况 下 只 是 简单 地 将 位 图 中 相应 的 标志 位 清 0 ( 见 277 行 )。 而 对 于 新 的 
“实时 ”信和 号 ， 则 信号 的 到 达 不 光 是 定性 的 ， 也 是 定量 的 。 到 达 的 信号 除了 使 位 图 中 的 柑 应 标志 位 溉 
成 1 以 外 还 进入 了 本 进程 的 信号 队列 ， 所 以 还 缆 在 队列 中 搜索 并 将 其 释 族 《〈 见 281 行 的 while 循环 )。 

回 到 do_sigaction( ) 的 代码 中 ， 由 于 丢弃 了 若干 已 经 到 达 的 信号 ， 当 前 进程 的 task_struct 结构 中 表 
RETE ULD 信和 号 在 等 待 处 理 的 总 标志 sigpending 也 得 要 从 重新 算 一 下 了 ( 见 1055 行 )。 读 者 也 
许 会 问 , 为 什么 task. struct 结构 中 要 有 那么 个 总 标志 ? 判断 “下 sigpending 结构 中 的 位 图 signal 是 否 为 
0 不 就 可 以 了 吗 ? 问题 在 于 位 图 并 不 就 是 一 个 长 整数 。 从 前 ， 当 信和 号 的 数量 少 于 32 个 时 ， 堵 样 确实 是 
可 以 的 ， 但 现在 不 行 了 。 

跟 设 置 “ 信 号 同 量 ”有 关 的 系统 调用 还 有 He: 

sigprocmask( ) 一 一 改变 本 进程 task_struct 结构 中 的 信号 屏 溉 位 图 blocked. ERRA yt ice RE R 
体 的 向 量 k_sigaction 数据 结构 中 的 屏蔽 位 图 sa_mask 不 同 。 位 图 sa_mask 的 屏蔽 位 只 在 执行 相应 的 处 
理 程 序 时 才 起 作用 ， 而 blocked PAU ARAL BARRE EI. JERE, Brin “Ra” ER 
阻止 对 已 经 到 达 的 信号 作出 响应 ， “号 屏蔽 取消 ， 这 些 已 经 到 达 的 信号 还 是 会 得 到 处 理 的 。 

sigpending( ) 一 一 检查 有 哪些 信号 已 经 到 达 而 尚 术 处 埋 。 

sigsuspend( ) 一 -暂时 改变 本 进程 的 信号 屏蔽 位 图 ， 并 使 进程 进入 睡 肛 ， 等 待 任何 一 个 未 被 屏 散 的 
a PLA. 

Poe xa cua ALR BT HRS * Sci" AAR, vU rt sigsuspend( ) 等 。 所 有 这 些 系统 凋 川 的 实现 大 
都 在 arch/i386/kernel/signal.c 和 kernel/signal.c 钠 个 文件 中 。 一 来 限于 篇 幅 , 三 来 也 给 读 痢 留 下 举一反三 
的 空间 ， 这 里 就 不 深入 a 到 有 关 的 代码 中 去 了 ， 

“信号 向 量 ” 设 置 好 了 ， 就 作 好 了 接收 和 处 理 信号 的 准备 ， 下 一 步 就 要 看 怎样 向 一 个 进程 发 送信 
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辣 样 ， 发 送信 号 的 系统 谢 用 也 有 新 川 不 同 的 版 本 。 老 的 版 木 是 kill( ): 


int kill( pid t pid, int sig); 


参数 pid 为 日 标 进程 的 pid， 当 pid 为 0 时 ， 农 示 发 送 给 当前 进程 所 在 进程 弓 中 所 有 的 进程 ， 为 一 1 
时 则 发 送 给 系统 中 的 所 有 进程 。 : 
新 的 版 本 为 sigqueue( ): 


int sigqueue( pid t pid, int sig , const union sigval val); 


与 kill( ) 不 同 的 是 , sigqueue( ) 发 送 的 除 信号 sig 本 身 外 还 有 附加 的 信息 , 就 是 val. 此 外 ， sigqueue( ) 
能 将 信和 与 发 送 给 一 个 特定 的 进程 , 而 不 像 kill( ) 那 样 可 以 通过 将 参数 pid 设 成 0 来 发 送 给 整个 进程 纠 。 
数 val 是 个 union， 它 可 以 是 一 个 长 整数 ， 但 实际 上 总 是 一 个 指向 siginfo 数据 结构 的 指针 。 

在 clib 中 还 有 个 库 函 数 raise(int sig)， 用 来 发 送 “个 信号 给 自己 ， 相 当 于 kill(getpid( ),sig). 

系统 调用 kill( ) 在 内 核 中 的 主体 为 sys_kill( )， 其 代码 人 在 kernel/signal.c 中 : 


Wp o 


979 asmlinkage long 
980 sys_kill (int pid, int sig) 


981 { 

982 struct siginfo info; 

983 

984 info.si signo - sig; 

985 info.si errno - 0; 

986 info.si code - ST USER; 

987 info.si pid = current-?pid; 
988 info. si_uid = current-»uid; 
989 

990 return kill something info(sig, &info, pid); 
991] |] 


AUS, AGUS F— T siginfo 结构 ， 然 后 调用 Kill. something. info( ): 


[sys kill( ) > kill, something. info( )] 


651 /* 

652 * kill something info( ) interprets pid in interesting ways just like kill(2). 
653 * 

654 * POSIX specifies that kill(-l, sig) is unspecified, but what we have 

655 * is probably wrong. Should make it like BSD or SYSV, 

656 */ 

657 


658 static int kill something info(int sig, struct siginfo *info, int pid) 
659 { 
660 if (!*pid) { 
661 return kill pg info(sig, info, current->pgrp) ; 
.729. 


662 
663 
664 
665 
666 
667 
668 
669 
670 
671 
672 
673 
674 
675 
676 
677 
678 
679 
680 
681 
682 


993 
994 
995 
996 
997 
998 
999 
1000 
1001 
1002 
1003 
1004 
1005 
1006 
1007 
1008 
1009 


} 
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} else if (pid == -D { 
int retval = 0, count = 0; 
struct task struct * p; 


read lock(&tasklist lock); 
for each task(p) { 
if (pOpid > 1 && p != current) { 
int err = send sig info(sig, info, p); 
++count ; 
if (err != -EPERM) 
retval = err; 
} 
} 
read unlock(&tasklist lock); 
return count ? retval : -ESRCH; 
) else if (pid « 0) { 
return kill pg info(sig, info, -pid); 
} else { 
return kill proc info(sig, info, pid); 


} 


可 见 ， 之 所 以 需要 kill something info( ) 这 一 层 ， 是 因为 要 根据 pid 的 值 来 确定 是 要 将 信号 发 送 给 
一 个 特定 的 进程 (通过 kill_proc_info( ))， 还 是 整个 进程 组 (通过 kill_pg_info( ))， 还 是 全 部 进程 ? 

相 比 之 下 ,， 另 -个 系统 调用 sigqueue( ) 只 人 允许 将 信号 发 送 给 - -个 特定 的 进程 , 并 且 随 同 信号 发 送 的 
siginfo 结构 也 是 由 用 户 进程 白 己 设置 的 ,所 以 它 在 内 核 中 的 实现 sys_rt_sigqueue( ) 就 要 简单 得 多 (也 在 
kernel/signal.c FP). 


asmlinkage long 
sys rt sigqueueinfo(int pid, int sig, siginfo t *uinfo) 


{ 


} 


siginfo_t info; 


if (copy from user (info, uinfo, sizeof (siginfo_t))) 
return -EFAULT; 


/* Not even root can pretend to send signals from the kernel. 


Nor can they impersonate a kill( ), which adds source info. 


if (info.si code >= 0) 
return —EPERM; 
info.si signo - sig; 


/* POSIX. ib doesn't mention process groups. */ 
return kill proc info(sig, &info, pid); 


*/ 


这 里 的 kill_proc_info( ) 根 据 pid 找到 目标 进程 的 task. struct 结构 ， 然后 通过 send_sig_info( )， 将 信 
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号 发 送 给 它 (kemel/signal.c): 
[sys kill( ) > kill_something_info( ) > kill. proc. info( )] 


635 inline int 
636 kill proc info(int sig, struct siginfo *info, pid t pid) 


637 { 

638 int error: 

639 struct task struct *p; 

640 

641 read lock (&tasklist lock); 
642 p = find task by pid(pid); 
643 error = -ESRCH; 

644 if (p) 

645 error - send sig info(sig, info, p); 
646 read unlock(&tasklist lock); 
647 return error; 

648  ] 


而 kill_pg_info( ) 则 将 同 -信号 发 送 给 整个 进程 组 ; 


[sys kill( ) > kill something info( ) > kill pg info( )] 


582 /* 

583 * kill_pg_info( ) sends a signal to a process group: this is what the tty 
584 * control characters do (C, 7 etc) 

585 */ 

586 

587 int 

588 kill pg info(int sig, struct siginfo *info, pid t pgrp) 
589 ( 

590 int retval = -EINVAL ; 

591 if (perp > 0) { 

592 struct task struct *p: 

593 

594 retval = -ESRCH; 

595 read lock(&tasklist lock); 

596 for each task(p) | 

597 if (p-^pgrp == perp) { 

598 int err = send_sig info(sig, info, p); 
599 if (retval) 

600 retval = err; 

601 } 

602 } 

603 read unlock(&tasklist lock); 

604 } 

605 return retval; 
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606 | 
Ay JL, kill pg info( ) 最 终 也 是 逐个 地 找到 同一 进程 组 中 所 有 进程 的 task struct 结构 ， 并 调用 
send sig info( ) 将 信号 发 送 给 它们 ， 也 就 是 说 ， 最 后 都 是 通过 send_sig_info( ) 来 完成 的 。 我 们 在 第 4 E 
中 讲 系 统 调用 exi ) 时 提 到 过 这 个 函数 ， 但 当时 浅 有 深入 到 它 的 代码 中 。 坝 在 ， 让 我 们 来 看 看 刘 底 是 怎 
么 发 送 的 。 其 代码 在 signal.c 中 。 这 个 函数 比较 大 ， 所 以 还 是 分 段 米 看 Ckernelsignal.c): 


[sys kill( ) > kill_something_info( ) > kill proc info( ) > send_sig_info( )] 
503 int 


504 send sig info(int sig, struct siginfo *info, struct task struct *t) 
505. 4 


506 unsigned long flags; 
507 int ret; 

508 

509 


510 #if DEBUG SIG 
511 printk(’SIG queue (%s:%d): %d ", t->comm, t->pid, sig); 


512 Hendif 

513 

514 ret = -EINVAL; 

515 if (sig < 0 || sig > _NSIG) 

516 goto out_nolock; 

517 /* The somewhat baroque permissions check... */ 

518 ret = -EPERM; 

519 if (bad signal(sig, info, t)) 

020 goto out nolock; 

52] 

522 /* The null signal is a permissions and process existance probe. 
523 No signal is actually delivered. Same goes for zombies. */ 
524 ret = 0; 

525 if (!sig || !t—>sig) 

526 goto out nolock; 

527 


首先 是 对 输入 参数 的 检查 ， 即 所 谓 “健康 检 查 ”， 这 十 通过 bad signal( ) 进 行 的 《signal.c): 


[sys kill( ) > kill_something_info( ) > kill, proc info( ) > send sig info( ) > bad_signal( )] 


305 /* 
306 * Bad permissions for sending the signal 
307 */ 


308 int bad_signal (int sig, struct siginfo *info, struct task struct *t) 
309 { 


310 return (tinfo |! ((unsigned long)info != | && SI FROMUSER (info) )) 
311 && ((sig != SIGCONT) || (current session != t->session)) 
312 && (current—>euid ^ t-»suid) && (current—>euid ^ t->uid) 


. 732 . 


BOE 传统 的 Unix 进程 间 通 信 


313 && (current->uid ~ 1->suid) && (current->uid ^ t-»uid) 
314 && !capable (CAP KILI): 
315 } 


这 里 的 current 指向 当前 进程 《信号 的 发 送 者 ) 的 task. struct 结构 ，t 则 指向 月 标 进 程 (信号 的 接收 
者 ) 的 task struct 结构 。 宏 操作 SI FROMUSER( JURA Hes SLE YE include/asm-i386/siginfo.h 
中 : 


99 /* 

100 * si code values 

101 * Digital reserves positive values for kernel-generated signals. 

102 */ 

103 #define ST USER 0 /* sent by kill, sigsend, raise */ 

104 Hdefine SI KERNEL 0x80 /* sent by the kernel from somewhere */ 
105 #define ST QUEUE -1 /* sent by sigqueue */ 

106 #define ST TIMER _ SI_CODE(__SI_TIMER,-2) /* sent by timer expiration */ 
107 Hdefine SI MESGQ -3 /* sent by real time mesq state change */ 
108 #define SI_ASYNCIO -4 /* sent by AIO completion */ 

109 #define SI_SIGIO -5 /* sent by queued SIGIO */ 

110 


111 #define SI FROMUSER(siptr) ((siptr)->si code <= 0) 
112 #define SI FROMKERNEL (siptr) ({siptr)->si code > 0) 


上 列 的 7 个 常数 用 于 siginfo 结构 中 的 si code 字段 ， 用 来 区 分 7 种 不 同 的 信号 源 ， 读 者 可 以 结合 
看 一 下 前 面 sys_kill( ) 中 的 986 行 。 在 sys rt sigqueueinfo( ) 中 ， 则 随同 siginfo 结构 一 起 来 自 进程 的 用 
户 空间 ， 其 值 必 须 为 一 负数 。 


一 章 ) 的 进程 ， 除 非 发 送信 号 的 进程 可 以 通过 suser, ) 暂 时 性 地 得 到 特权 用 户 的 权限 。 代 码 中 的 
capable(CAP_KILL) 正 是 试图 取得 这 种 特权 ， 读 者 中 参阅 “文件 系统 ”一 章 中 的 有 关内 容 。 

这 时 要 提醒 一 下 。 在 上 面 的 评语 名 中 ，capable(CAP_KILL) 出 现在 一 个 “与 ”条 件 表 达 式 中 ， 所 以 
只 有 在 前 面 的 所 有 各 项 均 为 true 时 才 会 执行 ， 这 赴 由 C 语言 的 语义 规则 决定 的 。 还 有 ， 这 里 的 异 或 运 
5, WI (current -> euid ^ t -> suid)， 实 际 上 就 是 检验 两 者 是 否 不 等 。 

我 们 假定 通过 了 所 有 这 些 检验 ， 继 续 往 卜 看 (kernel/signal.c): 


[sys kill( ) > kill_something_info( ) kill proc info( ) > send sig info( )] 


528 spin lock irqsave(&t-^sigmask lock, flags); 

529 handle stop signal(sig, t); 

530 

531 /* Optimize away the signal, if it's a signal that can be 
532 handled immediately (ie non-blocked and untraced) and 

533 that is ignored (either explicitly or by default). */ 
534 

535 if (ignored signal(sig, t)) 

536 goto out; 
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前 面 讲 过 ， -个 进程 可 以 通过 信号 屏蔽 位 图 来 暂时 扣 引 〈 或 遮盖 ) 所 接收 到 的 信号 。 但 是 ， 在 接 
收 到 某 些 特定 的 信号 以 后 ， 就 不 容许 屏蔽 另 一 些 特定 的 后 续 信 号 ， 所 以 对 这 些 信号 要 强行 除去 屏蔽 ， 
为 后 续 信 号 的 处 理 打 清道 路 。 例 如 ， 在 接收 到 SIGSTOP 以 后 ， 其 后 续 信 号 必然 是 SIGCONT， 所 以 要 
将 屏蔽 位 图 中 的 SIGCONT 屏蔽 位 强行 清 0。 而 SIGCONT 的 后 续 信 号 则 可 以 是 SIGSTOP、SIGTSTP、 
SIGTTOU 以 及 SIGTTIN 中 的 任何 一 个 ， 所 以 要 把 这 些 屏 蔽 位 全 部 清除 。 另 一 方面 ， 对 于 SIGKILL 和 
SIGCONT 来 说 ， 如 果 目 标 进程 正在 TASK_STOPPED 状态 〈 注 意 ， 不 是 睡眠 状态 ， 还 要 将 其 唤醒 ， 
也 就 是 将 进程 的 状态 改 成 TASK_RUNNING。 这 些 处 理 都 是 由 handle_stop_signal( ) 完 成 的 。 其 代码 也 
在 同一 文件 中 : 


[sys_kill( ) > kill_something_info( ) > Kill_proc_info( ) > send_sig_info( ) > handle_stop_signal( )] 


374 /* 

375 * Handle TASK STOPPED cases etc implicit behaviour 
376 * of certain magical signals. 

377 * 

378 * SIGKILL gets spread out to every thread. 

379 */ 


380 static void handle stop signal(int sig, struct task struct *t) 
381 { 


382 switch (sig) { 

383 case SIGKILL: case SIGCONT: 

384 /* Wake up the process if stopped. */ 
385 if (t->state == TASK STOPPED) 

386 wake up process (t); 

387 t—>exit code = 0; 

388 rm sig from queue (SIGSTOP, t); 

389 rm sig from queue(STGTSTP, t); 

390 rm sig from queue(SIGTTOU, t); 

391 rm sig from queue(SIGTTIN, t); 

392 break; 

393 

394 case SIGSTOP: case SIGTSTP: 

395 case SIGTTIN: case SIGTTOU: 

396 /* If we're stopping again, cancel SIGCONT */ 
397 rm sig from queue(SIGCONT, 1); 

398 break; 

399 } 

400  ] 


回 到 send, sig info( ) 的 代码 中 ，535 行 是 一 项 优化 。 如 末日 标 进 称 的 “信号 向 量 表 ”中 对 所 投递 信 
号 的 响应 是 “忽略 >”〈SIG_IGN)， 并 且 不 在 跟踪 模式 中 ， 也 没有 加 以 屏蔽 ， 那 就 根本 不 用 投递 了 《〈 除 
SIGCHLD 4b). MAM ignored_signal( ) 的 代码 在 kernel/signal.c 中 : 


[sys. kill( ) > kill_something_info( ) > kill_proc_info( ) > send sig info() ignored signak )] 
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static int ignored_signal (int sig, struct task struct *t) 


{ 


} 


/* Don’t ignore traced or blocked signals */ 
if ({t->ptrace & PT PTRACED) || sigismember (&t->blocked, sig)) 


return 0; 


return signal type(sig, t-^sig) == 0: 


> signal type( )] 


317 
318 
319 
320 
321 
322 
323 
324 
325 
326 
327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
337 
338 
339 
340 
341 
342 
343 
344 
345 
346 
347 
348 
349 
350 
351 
352 


/* 


* Signal type: 


* 
* 


*/ 


< 0 : global action (kill - spread to all non-blocked threads) 


= 0: ignored 
> 0: wake up. 


static int signal type(int sig, struct signal struct *signals) 


{ 


unsigned long handler; 


if (!signals) 
return 0; 


handler = (unsigned long) signals-^action[sig-1l]. sa. sa handler; 


if (handler > 1) 
return l; 


/* “Ignore” handler.. Illogical, but that has an implicit 


handler for SIGCHLD */ 
if (handler == 1) 
return sig -- SIGCHLD; 


/* Default handler. Normally lethal, but.. 


switch (sig) ( 


/* Ignored */ 

case SIGCONT: case SIGWINCH: 

case SIGCHLD: case SIGURG: 
return 0; 


/* Implicit behaviour */ 


case SIGTSTP: case SIGTTIN: case SIGTTOU: 


return |: 


*/ 


/* lmplicit actions (kill or do special stuff) */ 


default: 
return -1; 


- 735 . 


Linux 内 核 源 代码 情景 分 析 《 上 由) 


353 j 
354 } 


不 然 的 话 ， 就 进入 具体 投递 的 过 程 了 。 我 们 继续 往 下 看 Ckernalsignal.c?: 


[sys. kill( ) > kill_something_info( ) > kill_proc_info( ) > send_sig_info( )] 


538 /* Support queueing exactly one non-rt signal, so that we 
539 can get more detailed information about the cause of 
540 the signal. */ 

541 if (sig < STGRTMIN && sigismember (&t~>pending. signal, sig)) 
542 goto out; 

543 

544 ret = deliver signal(sig, info, t); 

545 out: 

546 spin unlock irqrestore(&t-^sigmask lock, flags); 

547 if ((t-»state & TASK INTERRUPTIBLE) && signal pending(t)) 
548 wake up process(L); 


549 out nolock: 
550 &if DEBUG SIG 
551 printk(^ %d -> %d\n”, signal pending(t), ret); 


552 #endif 

553 

554 return ret; 
555  ] 


对 于 “ 老 编制 ” AVES (sig < SIGRTMIN)， 所 谓 “投递 ”本 来 是 很 简单 的 ， 因 为 那 只 是 将 日 标 进 
程 的 “接收 信和 号 位 图 ”signal 中 相应 的 标志 位 设置 成 1， 而 无 需 将 信号 挂 入 队列 。 以 前 讲 过 ， 这 样 的 机 
制 有 时 候 会 将 在 短 时 期 中 接收 到 的 多 个 同 种 信号 合并 成 一 个 。 但 是 ， 内 核 中 对 这 些 “ 老 编制 ”信和 与 也 
套用 了 siginfo MHEG CA sys_kill( ) 的 代码)， 尽 管 这 个 数据 结构 中 的 信息 并 非 米 蝇 应 用 程序 ， 也 并 
不 完整 ， 但 多 少 总 也 载 送 着 一 些 信 息 。 所 以 ， 这 里 采用 了 -种 折 中 的 办 法 ， 就 是 对 于 “ 老 编制 ”的 信 
号 也 将 其 siginfo 结构 挂 入 队列 中 ， 不 过 只 挂 入 一 次 。 以 SIGINT 为 例 ， 当 第 一 个 SIGINT 到 达 时 ， 接 
收 位 图 中 的 SIGINT 标志 位 为 0， 所 以 将 其 设置 成 1， 并 月 将 伴随 的 siginfo 结构 插入 队列 。 然 后 ， 如 采 
在 第 一 个 SIGINT 信和 号 尚未 处 理 时 第 二 个 SIGINT 又 到 来 了 , 则 此 时 接收 位 图 中 相应 的 标志 位 已 经 为 1， 
队列 中 已 经 有 一 个 SIGINT 的 siginfo 数据 结构 在 等 待 处 理 ， 所 以 就 不 需要 再 投递 了 。 这 就 是 541 行 中 
sigismember( ) 所 作 的 测试 。 所 以 ， 在 来 不 及 处 理 的 情况 下 ， 相 继 到 达 的 则 种 信号 就 合并 了 。 这 样 的 实 
现 一 来 是 多 少 也 增加 了 一 些 信息 量 ，; :来 读者 以 后 会 看 到 简化 了 对 信号 作出 响应 时 的 代码 。 同 时 ， 这 
样 的 实现 也 与 传统 的 信号 机 制 竺 语义 上 完全 一 致 。 

如 果 到 达 的 信号 属于 “新 编制 ”， 邮 “实时 信和 号”， 或 者 虽 属 “ 老 编 制 ” 但 接收 位 图 中 相对 的 标志 
位 为 0， 那 就 楼 通过 deliver_signal( )“ 投 递 ” 们 号 了 《signalc )。 


[sys_kill( ) > kill something info( ) > kill_proc_info( ) > send_sig_info( ) > deliver signal )] 
493 static int deliver_signal (int sig, struct siginfo *info, struct task struct *t) 
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int retval = send signal(sig, info, &t->pending): 


if (!retval && !sigismember (&t->blocked, sig)) 
signal wake up(1); 


return retval; 


具体 的 操作 主要 是 send signa )， 其 代码 也 在 signal.c 小 : 


[sys kill( ) > kill something info( ) > kill_proc_info( ) > send sig info( ) > deliver signal( ) 
> send signal( )] 


402 
403 
404 
405 
406 
407 
408 
409 
410 
411 
412 
413 
414 
415 
416 
417 
418 
419 
420 
42] 
422 
423 
424 
425 
426 
421 
428 
429 
430 
431 
432 
433 
434 


static int send_signal (int sig, struct siginfo *info, struct sigpending *signals) 
struct siggueue * q = NULL; 


/* Real-time signals must be queucd if sent by sigqueuc, or 
some other real-time mechanism. It is implementation 
defined whether kill( ) does so. We attempt to do so, on 
the principle of least surprise, but since kill is not 
allowed to fail with FAGAIN when low on memory we just 
make sure at least one signal gets delivered and don't 
pass on the info struct.  */ 


if (atomic read(&nr queucd signals) € max queued signals) { 
q = kmem cache alioc(sigqueue cachep, GFP. ATOMIC) ; 
} 


if (q) | 
atomic inc(&nr queued signals); 
q-»next - NULL; 
*signals->tail = q; 
signals—>tail = &q->next: 
switch ({unsigned long) info) { 
case 0: 
q-^2info.si signo = sig; 
q-^info.si errno = 0; 
q-^info.si code = Sl USER; 
q-^info.si pid = current pid; 
q-^info.si uid = current-»uid; 
break; 
case 1: 
q ^info.si signo = sig; 
q >info. si_errno = 0; 
q->info. si_code = SI KERNEL; 
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435 q-^info.si pid = 0; 

436 q->info. si uid = 0; 

437 break; 

438 default: 

439 copy siginfo(&q-^info, info); 

440 break; 

44] } 

442 } else if (sig >= SIGRTMIN && info && (unsigned long)info != 1 
443 && info->si code != SI USER) | 

444 /* 

445 * Queue overflow, abort. We may abort if the signal was rt 
446 * and sent by user using something other than kill( ). 
447 */ 

448 return —EAGAIN; 

449 } 

450 

451 sigaddset (&signals->signal, sig); 

452 return 0; 

453  ] 


投递 时 将 siginfo 结构 的 内 容 复 制 到 一 个 sigqueue 数据 结构 中 ， 并 将 这 个 结构 挂 入 队列 。sigqueue 
数据 结构 的 定义 在 include/linux/signal.h "P: 


12 struct sigqueue { 


13 struct sigqueue *next; 
14 siginfo t info; 
IB- 35 


恋 者 也 许 会 问 ， 为 什么 不 直接 在 siginfo t 数据 结构 中 增加 一 个 指针 next， 从 而 直接 将 此 数据 结构 
挂 入 队列 中 呢 ? 这 是 因为 并 非 每 次 调用 sys_killk )8X sys. rt sigqueueinfo( ) 时 者 一定 会 将 这 个 数据 结构 挂 
入 队列 ， 而 分 配 / 释 放 这 样 个 数据 结构 的 系统 开销 实际 上 远 超 过 当真 有 必要 时 临时 加 以 复制 的 开销 。 
所 以 ， 在 sys_kill( )8 sys_rt_sigqueueinfo( ) 中 ， 将 这 个 siginfo_t 结构 作为 局 部 莉 安 排 在 堆栈 上 ， 只 在 确 
有 必要 时 才 分 配 一 个 signal_queue 数据 结构 并 加 以 复制 。 

不 过 ， 并 非 在 所 有 的 情况 下 都 是 将 伴随 着 〈 或 者 说 载 送 着 ) 信号 的 siginfo t 结构 复制 到 sigqueue 
结构 中 ， 有 两 种 情况 是 例外 的 ， 那 就 是 当 参 数 info 的 值 为 特殊 值 0 或 1 的 时 候 。 在 这 两 种 情况 下 ，info 
应 被 视 作 整数 而 不 是 指针 ， 发 生 的 信和 号 来 自 系统 空间 《〈 而 不 是 由 一 个 进程 在 用 户 空 间 中 通过 系统 调用 
发 出 ) 的 情况 下 。 此 时 由 send_sig_info( ) 补 充 产 生出 相应 的 内 容 ( 见 424—437 行 )。 

最 后 ， 偿 要 通过 sigaddset( ) 将 接收 位 图 中 相应 的 标志 位 设 着 成 1。 

成 功 地 投递 了 信号 并 不 说 明 这 个 信号 就 是 在 等 待 着 处 理 了 , EG HERE T8 DEC SMa, 
所 以 回 到 deliver_signal( ) 中 要 调用 sigismember( ) 加 以 检查 (497 行 )。 如 果 日 标 进程 止 在 睡眠 中 ， 并 且 
没有 屏蔽 所 投递 的 信号 ， 就 要 将 其 唤醒 并 立即 进行 调皮 (498 fT). 

函数 signal_wake_up( ) 的 代码 在 kerneVsignal.c 中 。 我 们 把 有 关 的 代码 列 出 在 这 里 ， 读 者 可 结合 ”; 
程 油 度 ”上 自行 阅读 : 
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[sys kill( ) > kill_something_info( ) > kill proc info( ) > send, sig info( ) > deliver signal( ) 
> signal wake up( )] 


455 /* 

456 * Tell a process that it has a new active signal.. 

457 * 

458 * NOTE! we rely on the previous spin lock to 

459 * lock interrupts for us! We can only be called with 

460 * "sigmask lock” held, and the local interrupt must 

461 * have been disabled when that got aquired! 

462 * 

463 * No need to sel need resched since signal event passing 
464 * goes through —>blocked 

465 */ 

466 static inline void signal wake up(struct task struct *t) 
467 | 

468 t-^sigpending = l; 

469 

410 if (t->state & TASK INTERRUPTIBLE) { 

471 wake up process (t); 

472 return; 

473 } 

474 

475 #ifdef CONFIG SMP 

476 /* 

477 * If the task is running on a different CPU 

478 * force a reschedule on the other CPU to make 

479 * it notice the new signal quickly. 

480 * 

481 * The code below is a tad loose and might occasionally 
482 * kick the wrong CPU if we catch the process in the 
483 * process of changing - but no harm is done by that 
484 * other than doing an extra (lightweight) IPI interrupt. 
485 */ 

486 spin lock(&runqueue lock); 

487 if (t-^has epu && t— processor !- smp processor id( )) 
488 smp send reschedule(t-5processor); 

489 spin unlock (&runqucue_ lock) ; 

490 Hendif /* CONFIG SMP */ 

43  ) 


国 数 wake up process ) 的 代码 在 第 4 章 中 已 经 读 过 ， 读 者 不 妨 重 温 一 下 。 这 里 只 是 提 :下 ; 将 日 
标 进程 唤醒 以 后 ， 如 果 肯 标 进程 的 优先 级 别 高 于 当前 进程 ， 那 么 在 当前 进程 从 系统 调用 返回 之 际 就 有 
可 能 进行 “次 调度 ， 而 目标 进程 是 否 能 被 调度 运行 ， 则 取决 于 其 优先 级 别 及 其 他 各 种 因素 。 下 面 还 要 
谈 这 个 问题 。 
并 韭 所 有 的 信和 与 都 是 由 某 个 进程 在 用 户 空间 通过 系统 调用 发 送 的 。 例 如 ， 人 在 第 2 章 中 的 页 面 异 常 
处 理 程序 do_page_fault( ) 里 ， 当 页 面 异 常 雹 法 恢复 时 就 会 通过 force, sig ) 向 当前 进程 发 送 一 个 SIGBUS 
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fas. PR force sig( ) 是 内 核 中 发 送信 号 的 基本 于 段 。 其 代码 佳 kernel/signal.c 中 : 


[do_page_fault( ) > force sig( )] 


694 void 

695 force sig(int sig, struct task struct *p) 
696 ( 

697 force sig info(sig, (void*)lL, p); 
698 ) 


[do page fault( ) > force sig( ) > force sig info( )] 


562 int 

563 force sig info(int sig, struct siginfo *info, struct task struct *t) 
564 { 

565 unsigned long int flags; 

566 

567 spin lock irqsave(&t-^sigmask lock, flags); 

568 if (t>sig == NULL) { 

569 spin unlock irqrestore(&t >sigmask lock, flags); 
570 return -ESRCH; 

571 } 

572 

573 if (t->sig->action[sig-1}]. sa. sa handler == SIG IGN) 
574 t->sig—-actionlsig-l].sa.sa_handler = SIG DFL; 
575 sigdelset (&t->blocked, sig); 

576 recalc_sigpending (t) ; 

577 spin unlock irqrestore(&t-^sigmask lock, flags); 

578 

579 return send sig info(sig, info, t); 

580 } 


注意 ， 在 force_sig( ) 中 调用 force_sig_info ) 时 将 第 -个 参数 设 成 1， 表示 是 以 内 核 的 名 义 发 送 的 ， 
正 因为 force sig( ) 是 “强制 ” 旦 标 进程 接收 :个 信号 ， 所 以 不 允许 日 标 进程 忽略 该 信号， 并 且 在 调用 
send_sig_info( ) 亲 要 将 其 斌 蔽 位 也 强制 清除 。 

至 此 , 信号 的 投递 已 经 完成 ， 接 下 来 就 是 日 标 进程 如 何 发 岗 信 号 的 到 米 以 及 如 何 对 此 作出 及 应 了 。 

在 中 断 机 制 中 ， 处 理 器 的 硬件 在 每 条 指令 结束 时 都 要 检测 是 否 有 中 断 请 求 存 企 。 信 与 机 制 是 纯 软 
件 的 ， 当 然 不 能 依靠 硬件 来 检测 信号 的 到 来 。 同 时 ， 要 在 每 条 指令 结束 时 都 来 检测 显然 也 是 不 现实 的 、 
甚至 是 不 可 能 的 。 那 么 ， 一 个 进程 在 什么 情况 下 检测 信号 的 存在 呢 ?” 上 自 先是 每 当 从 系统 调用 、 中 断 处 
理 或 异常 处 理 返 回 到 用 户 空间 的 前 儿 ;， 还 有 斌 是 当 进程 被 从 睡眠 中 唤醒 (必定 臣 存 系统 调用 中 〉 的 时 
候 ， 此 时 车 发 现 有 信号 在 等 待 就 要 提前 从 系统 调 川 返回 。 总 而 言 之 ， 不 管 是 正常 返回 还 是 提前 返回 ， 
在 返 问 到 用 户 空 间 的 前 夕 总 是 要 检测 信号 的 存在 并 作出 反应 ， 这 一 点 我 们 在 第 3 章 中 已 经 提 到 过 。 下 
而 是 arch/i386/kernel/entry.S 中 的 个 片断 : 


217 ret with reschedule: 
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218 cmpl $0, need resched (%ebx) 
219 jne reschedule 

220 cmpl $0, sigpending (%ebx) 

221 jne signal return 

222 restore_all: 

223 RESTORE ALL 

224 

225 ALIGN 

226 Signal return: 

227 sti # we can get here from an interrupt handler 
228 test] $(VM_MASK), EFLAGS (%esp) 
229 movl "esp, *eax 

230 jne v86 signal return 

231 xorl %edx, %edx 

232 call SYMBOL NAME (do signal) 
233 jmp restore all 


建议 读者 回 过 头 去 看 一 下 第 3 章 中 的 有 关内 容 , 摘 清楚 sigpending (%ebx) HE current -> sigpending. 
这 里 还 要 指出 一 点 ， 一 般 来 说 ， 当 进程 运行 于 用 户 空间 时 ， 即 使 信号 到 达 了 也 不 会 引起 进程 立刻 对 信 
号 作出 反应 ， 而 要 到 当前 进程 因 某 种 原因 《包括 时 钟 中 断 》 进入 内 核 首 从 内 核 返回 时 才 会 作出 反应 ， 
所 以 通常 在 时 间 上 都 会 有 一 段 延迟 。 可 是 ， 当 信和 号 来 源 于 异常 处 理 〈 或 中 断 服务 、 系 统 调 用 》 时， 则 
由 于 进程 已 经 在 内 核 中 运行 ， 在 返回 到 用 户 空间 之 前 就 会 作出 反应 ， 所 以 几乎 可 以 认为 是 立即 就 作出 
反应 。 特 别 是 在 异常 处 理 时 ， 这 种 反应 发 生 在 返回 到 用 户 空间 重新 执行 引起 异常 的 那 条 指令 之 前 ， 所 
以 从 用 户 空 间 的 程序 执行 角度 来 看 就 是 立即 的 。 

对 信号 作出 反应 的 具体 操作 是 通过 do_signal( ) 完 成 的 。 这 又 是 一 个 比较 大 的 函数 ， 我 们 还 是 一 - 段 
一 段 往 下 看 。 有 关 的 代码 都 在 arch/i386/kernel/signal.c H: 


[ret with reschedule( ) > do. signal )] 


579 /* 

580 * Note that ‘init’ is a special process: it doesn't get signals it doesn’t 
581 * want to handle. Thus you cannot kill init even with a STGKILL even by 
582 * mistake. 

583 */ 

584 int do_signal (struct pt regs *regs, sigset t *oldset) 

585 d 

586 siginfo t info; 

587 struct k sigaction *ka; 

588 

589 /* 

590 * We want the common case to go fast, which 

591 * is why we may in certain cases gct here from 

592 * kernel mode. Just return without doing anything 

593 * if so. 

594 */ 

595 if ((regs->xcs & 3) != 3) 
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596 return 1; 

597 

598 if (toldset) 

599 oldset = &current—>blocked; 
600 


读者 不 妨 先 回顾 -下 第 3 BPA pt_regs 数据 结构 的 内 容 。 在 中 断 处 理 、 异 常 处 理 或 系统 调用 中 ， 
处 理 器 的 系统 空间 堆栈 保存 着 该 处 理 器 在 进入 内 核 之 前 的 “现场 ” 也 就 是 各 个 寄存 器 企 进入 内 核 前 的 
内 容 。Linux 的 内 核 将 系统 空间 堆栈 中 这 些 寄 存 器 的 “ 映 象 ”看 作 -个 数据 结构 ， 这 就 是 pLregs。 所 
以 ， 这 里 的 指针 regs 指向 系统 空间 堆栈 中 的 这 些 寄 存 器 映 象 ， 其 中 regs -> xcs 为 处 理 器 进入 这 些 程序 
前 代码 段 寄 存 器 CS 的 内 容 。 如 果 处 理 器 是 从 用 户 空间 进入 中 断 、 异 常 或 陷阱 《系统 调用 )， 则 当时 CS 
的 最 低 师 位 必定 是 3《〈 表 示 用 户 空间 )。 反 过 来 ， 如 果 regs -> xcs 的 最 低 两 位 不 等 于 3 Bui. BHAA 
次 中 断 或 异常 发 牛 于 系统 空间 ， 所 以 处 理 器 并 不 是 处 于 返回 到 用 户 空 间 的 前 夕 ， 并 不 需要 对 信和 号 作出 
反应 。 理 则 ， 就 要 往 下 跑 了 Carch/i386/kernel/signal.c:do. signal )2: 


[ret with, reschedule( ) > do. signal )] 


601 for C 4 


602 unsigned long signr; 

603 

604 spin lock irq(&current ->sigmask_lock) ; 

605 signr = dequeue_signal (&current->blocked, &info) ; 

606 spin _unlock_irg(&current~>sigmask_lock) ; 

607 

608 if (!signr) 

609 break; 

610 

6il if ((current—>ptrace & PT PTRACED) && signr != SIGKILL) | 
612 /* Let the debugger run. 半 / 

613 current-»exit code = signr; 

614 current-»state = TASK STOPPED; 

615 notify parent (current, SIGCHLD) ; 

616 schedule( ); 

617 

618 / We're back. Did the debugger cancel the sig? */ 
619 if (!(signr = current—>exit_code) ) 

620 continue; 

621 current—>exit_code - 0; 

622 

623 /* The debugger continued. Ignore SIGSTOP. */ 

624 if (signr -- SIGSTOP) 

625 continue; 

626 

627 /* Update the siginfo structure. Is this good? */ 
628 if (signr != info.si signo) | 

629 info.si signo = signr; 
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630 info. si_errno = 0; 

631 info. si_code = SI USER; 

632 info. si_pid = current->p_pptr->pid: 

633 info. si_uid = current~>p_pptr—uid: 

634 } 

635 

636 /* If the (new) signal is now blocked, requeue it. */ 
637 if (sigismember (&current—>blocked, signr)) { 
638 send sig info(signr, &info, current): 
639 continue; 

640 ] 

641 } 

642 

643 ka = &current-^sig-^aciion[signr-1]; 

644 if (ka~>sa. sa_handler == SIG IGN) 1 

645 if (signr != SIGCHLD) 

646 continue; 

647 /* Check for SIGCHLD: it's special. */ 

648 while (sys wait4(-1, NULL, WNOHANG; NULL) » 0) 
649 /* nothing */; 

650 continue; 

651 } 

652 

653 if (ka-^sa.sa handler == SIG DFL) { 

654 int exit code = signr; 

655 

656 /* Init gets no signals it doesn't want. */ 
657 if (current pid == 1) 

658 continue; 

659 

660 switch (signr) { 

661 case SIGCONT: case SIGCHLD: case SIGWINCH: 
662 continue; 

663 

664 case SIGTSTP: case SIGTTIN: case SIGTTOU: 
665 if (is orphaned pgrp(current-»pgrp)) 

666 continue; 

667 /* FALLTHRU */ 

668 

669 case SIGSTOP: 

670 current—>state = TASK STOPPED: 

671 current-2exit code = signr; 

672 if (! (current->p_pptr->sig->action[SIGCHLD-1]. sa. sa. flags & SA NOCLDSTOP)) 
673 notify parent(current, SIGCHLD) ; 

674 schedule( ); 

675 continue; 

676 

671 case SIGQUIT: case SIGILL: case SIGTRAP: 
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678 case SIGABRT: case SIGFPE: case STGSEGY: 

679 case SIGBUS: case SIGSYS: case SIGXCPU: case SIGXFSZ: 
680 if (do coredump(signr, regs)) 

681 exit code |= 0x80; 

682 /* FALLTHRU */ 

683 

684 default: 

685 sigaddset (&current->pending. signal, signr); 
686 recalc sigpending (current) ; 

687 current flags |= PF SIGNALED; 

688 do exit(exit code); 

689 /* NOTREACHED */ 

690 } 

691 } 

692 

693 /* Reenable any watchpoints before delivering the 
694 * signal to user space. The processor register will 
695 * have been cleared if tho watchpoint triggered 

696 * inside the kernel. 

697 */ 

698 asm  (/movl %0,%%db7”: : "r^ (current-^thread. debugregl7])) ; 
699 

700 /* Whee! Actually deliver the signal. */ 

701 handle signal(signr, ka, &info, oldset, regs): 

702 return l; 

703. ] 

704 


这 是 :个 比较 大 的 for 循环 (601—703 47). EAE FOUR PRESE MUERE fi BÀ PU TP EDT 
dequeue. signal( ) 取 出 .个 未 加 屏蔽 的 信和 号 加 以 处 理 , 直到 信号 队列 中 不 再 存在 这 样 的 信号 ( 见 608 行 )， 
或 者 相应 的 “信号 向 量 ”为 SIG_DFL， 即 对 该 信号 采取 默认 的 反应 方式 为 止 。 而 这 默认 的 区 应 又 是 让 
接收 到 信号 的 进程 “寿终正寝 ”( 见 688 行 ), 或 者 执行 了 一 个 由 用 户 设置 的 信号 处 理 程序 之 后 ( 见 702 
115. 

函数 dequeue. signal ) 的 代码 也 在 同 “文件 中 , 其 代码 并 不 复杂 却 颇 为 繁琐 , 我 们 就 不 深入 进 云 卫 。 
简单 地 说 ， 它 参照 一 个 弃 项 位 图 ,在 这 里 是 current -> blocked， 从 当前 进程 的 信号 队列 中 找到 “个 未 加 
RAMEE, BU signal queue. 数据 结构 ， 将 其 脱 链 并 把 其 内 容 复制 到 数据 结构 info H, FEROX 
signal queue 数据 结构 ， 然 后 将 进程 的 信号 接收 位 图 中 相应 的 标志 位 清 0， 并 重新 计算 -下 进程 的 
sigpending 标志 。 

当 .个 进程 受到 其 父 进程 的 跟踪 而 处 于 debug 模式 时 , 对 信号 的 反应 有 ”- 些 特殊 的 考虑 (611~641 
行 )。 我 们 这 里 先 跳 过 它 ， 开 讲述 ptrace( ) 时 再 回 过 头 来 看 这 一 段 代 码 。 

如 前 所 述 ， 对 具体 信号 的 反应 取决 于 其 “信号 向 量 ”的 设置 ， 所 以 要 根据 信和 号 的 数值 在 “ 售 扣 加 
量 表 ” 中 找到 相应 的 向 车 ， 却 k_sigaction 数据 结构 ， 放 让 指名 ka 指向 这 个 数据 结构 。 

如 果 设置 的 反应 方式 是 “忽略 ”(SIG_IGN)， 那 么 一 般 米 说 对 这 个 信号 的 处 理 跌 完成 CR, 646 
行 )。 但 有 一 个 例外 ， 那 就 是 当 信号 为 SIGCHLD 时 。 这 个 信号 通常 症 在 一 个 子 进 程 通过 exit( ) 系 统 调 
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用 结束 其 生命 时 向 父 进 程 发 出 的 ， 所 以 此 时 接收 到 SIGCHLD 信号 的 进程 此 调用 sys_waitd( OKRA E 
所 有 的 子 进程 (第 一 个 参数 为 一 1)， 只 要 找到 一 个 已 经 结束 生命 的 子 进程 就 为 其 “ 料 埋 后 事 ”( 见 第 4 
章 )。 注 意 ， 这 里 的 第 一 个 参数 WNOHANG， 表 示 如 果 没 有 发 现 已 经 结束 生命 的 子 进程 也 要 立即 返回 
《正常 返回 值 为 G0)，I 册 不 作 等 待 。 

为 一 个 特殊 的 有 反应 方式 是 SIG_DFL。 当 “信和 导向 量 ” 为 SIG_DFL 时 ,多 数 信号 (包括 SIG_KILL) 
都 会 落 入 684 行 的 default 部 分 ， 通 过 do_exit( ) 结 束 进程 的 运行 。 对 十 SIG_KILL 来 说 ， 一 米 它 的 信号 
四 量 是 不 容许 设 壮 的 ， 一 来 向 量 中 的 相应 屏蔽 位 也 在 每 次 设置 “信号 向 量 ” 叶 自动 清 0 CH 
do sigaction( ))， 而 日 在 通过 sys_rt_sigprocmask( ) 没 置 进程 的 信号 屏 项 位 图 时 也 会 自动 将 SIGKILL 的 
DER AiG 0。 所 以 对 于 目标 进程 ， 这 个 信号 是 头号 “杀手 ”。 注 意 代 码 中 的 667 Al 682 行 ， 这 些 地 
方 部 没有 break 语句 。 不 过 ，pid 为 1 的 init 进程 对 所 有 这 些 信号 都 有 “免疫 力 ” 而 不 受 任何 影响 ( 见 
658 行 )。 

由 此 可 风 ， 当 信和 与 问 量 为 SIG IGN 或 SIG DFL 时 ， 对 信号 的 反应 都 在 系统 空间 完成 ， 而 无 须 回 
到 用 户 空 间 。 

如 此 “信号 向 量 ” 指 向 森 个 出 用户 设置 的 信和 号 处 球 程 序 ， 那 就 要 凋 用 handle_signal( ) 予 以 执行 了 。 
我 们 将 在 后 面 加 以 介绍 。 

当 601 行 的 for 循环 “正常 ”结束 时， 也 就 是 说 当 执 行 到 第 703 行 的 后 面 时 ， 当 前 进程 中 肯定 已经 
没有 未 加 屏蔽 的 信号 了 。 这 是 因为 在 这 个 for 循环 中 只 有 一 个 出 凯 ， 即 break 语句 ， 那 就 是 在 第 609 行 
处 。 身 且 己 经 处 理 过 的 信号 肯定 全 都 不 是 通过 用 户 定 义 的 信和 号 处 理 程序 进行 的 ， 硅 则 就 在 702 行 处 返 
加 了 。 环 进一步 ， 这 些 信和 与 中 也 没有 一 个 使 进程 结束 运行 ， 否 则 鳄 在 688 行 通过 不 会 返回 的 do_exit( ) 
BT. haz, 这 些 信号 只 可 能 是 SIGCHLD, SIGCONT, SIGWINCH, SIGTSTP, SIGTTIN, SIGTTOU 
和 SIGSTOP， 或 者 信号 向 量 设 壮 成 SIG_IGN 的 其 他 信号 。 这 些 信 号 如 果 来 昌 某 个 系统 调用 的 过 程 中 ， 
则 往往 标志 奉 该 系统 调用 过 程 的 失败 。 这 种 情况 常常 发 生 在 设备 驱动 程 译 中 ， 并 且 往 往 会 划 求 自动 重 
新 执行 失败 的 系统 调用 ， 就 好 像 在 执行 指令 的 过 程 中 发 生 异 常 时 此 求 重 新 执行 失败 的 指令 一 样 。 郝 么 ， 
这 是 怎么 实现 的 呢 ? 让 我 们 继续 御 下 看 do_signal( ): 








[ret with reschedule( ) > do_signal( )] 


705 /* Did we come from a system call? */ 
706 if (regs->orig eax >= 0) | 

707 /* Restart the system call - no handlers present */ 
708 if (regs->eax == -ERESTARTNOHAND | | 
709 regs—>cax =- -ERESTARTSYS | | 
710 regs—>eax == -ERESTARTNOINTR) { 
111 regs >eax = regs—>orig eax: 

712 regs-?eip = 2: 

713 } 

714 } 

115 return 0; 

716 |] 


HARHA, regs -> orig eax 2g Ib EE Z8 XE AR E IR] BU EAE 3S EAX 的 内 容 ， 而 regs -> eax WAA 
统 调 用 的 返 辐 值 。 处 理 器 在 因 系统 调用 而 进入 系统 空间 之 前 ， 寄 存 器 EAX 中 为 系统 调用 号 。 而 系统 调 
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用 号 不 会 是 负数 ， 所 以 首先 要 检查 regs -> orig eax 是 否 大 于 等 于 0。 田 一 方面 ， 失 败 的 系统 调用 者 炎 
求 自动 重新 执行 就 会 将 EAX 中 的 返回 值 regs -> eax 设置 成 负 的 ERESTARTNOHAND, ERESTARTSYS 
和 ERESTARTNOINTR 之 一 ,所 以 , 当 regs -> eax 为 这 三 者 之 一 时 , WOK regs -> orig_eax 与 回 regs -> eax, 
并 且 将 regs -> eip 的 数值 减 2。 我 们 在 第 3 章 中 讲 过 ， 系 统 调用 是 通过 -条 “int $0x80” 指 令 实现 的 。 
在 正常 的 情况 下 ， 当 处 理 器 执行 该 指令 进入 系统 空间 时 其 指令 指针 EIP 指向 其 下 一 条 指令 ， 这 样 当 处 
理 器 返回 到 用 户 空间 时 就 会 继续 往 下 执行 。 现 在 ， 将 regs -> eip 的 数值 减 2， 就 使 得 处 理 器 返回 到 用 户 
室 间 时 其 EIP 又 名 过 去 指向 该 INT 指令 了 (因为 NT 指令 的 大 小 是 两 个 字 节 )， 所 以 束 会 重新 执行 -~ 
次 该 系统 调用 。 

如 果 用 户 设置 了 信和 号 处 理 程序 〈 在 用 户 空 间 中 )， 就 要 通过 函数 handle_signal( ) 准 备 好 对 处 埋 程序 
的 执行 ， 其 代码 也 在 arch/i386/kernel/signal.c 中 : 


[ret_with_reschedule( ) > do_signal( ) > handle signal( )] 


533 /* 

534 * OK, we're invoking a handler 
535 */ 

536 


537 static void 
538 handle_signal (unsigned long sig, struct k sigaction *ka, 


539 siginfo t *info, sigset t *oldset, struct pt regs * regs) 
540 { 

541 /* Are we from a system call? */ 

542 if (regs- orig eax >= 0) | 

543 /* Tf so, check system call restarting.. */ 
544 switch (regs->eax) { 

545 case ~ERESTARTNOHAND: 

546 regs-»eax = -EINTR; 

547 break; 

548 

549 case -ERESTARTSYS: 

550 if (! (ka->sa. sa flags & SA RESTART)) { 
551 regs-2eax = -EINTR; 

552 break; 

553 | } 

554 /* fallthrough */ 

555 case -ERESTARTNOINTR: 

556 regs-»eax = regs-^orig eax; 

557 regs-»eip -= 2; 

558 } 

559 j 

560 

561 /* Set up the stack frame */ 

562 if (ka-sa. sa flags & SA SIGINFO) 

563 setup rt frame(sig, ka, info, oldset, regs); 
564 else 

565 setup frame(sig, ka, oldset, regs); 
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566 

567 if (ka->sa. sa flags & SA ONESHOT) 

568 ka-»sa.sa handler = SI6 DF: 

569 

570 if (!(ka »sa. sa flags & SA NODEFER)) | 

56] spin lock irq(&current-^sigmask lock); 
572 sigorsets (&current—>blocked, &current—>blocked, &ka-^sa. sa mask) ; 
573 sigaddset (&current—>blocked, sig); 

574 recalc_sigpending (current) ; 

575 spin_unlock_irg(&current—>sigmask lock); 
576 | 

o 1j 


由 于 在 do signal ) 中 执行 完 handle_signal( ) 以 后 接着 加 返回 了 ， 所 以 这 时 也 此 考虑 系统 调用 失败 
后 重新 执行 的 问题 。 不 过 ， 此 时 《执行 用 户 设置 的 信号 处 理 程序 前 夕 ) 的 重新 执行 《实际 上 是 为 重新 
执行 所 作 的 准备 ) 却 是 有 区 分 并 且 有 条 件 的 了 。 

前 面 讲 过 ， 由 用 户 提供 的 信号 处 理 程序 是 存 用户 空间 执行 的 ， 而 上 执行 完毕 以 后 还 要 回 到 系统 空 
间 ， 这 是 由 setup_rt_frame( ) 或 setup. frame( ) 作 出 安排 的 。 二 者 的 代 但 大同小异 ， 所 以 我 们 在 这 里 上 只 看 
setup frame( )。 在 深入 到 代码 中 去 之 前 ， 先 大 致 介绍 一 下 所 涉及 的 一 些 问 题 利 解决 方案 。 大 家 知道 ， 
在 调用 一 个 子 程序 时 ， 堆 栈 要 往 下 (有 远 辑 意义 上 是 往 上 ) 伸展 ， 这 是 因为 需要 在 堆栈 中 保存 子 程序 的 
返回 地 址 ， 还 因为 子 程序 往往 会 有 局 部 变量 ， 也 要 占用 堆栈 中 的 空间 。 此 外 ， 调 用 子 程序 时 的 参数 也 
是 在 堆 栈 中 。 子 程序 调用 刀 套 愈 深 ， 则 堆栈 伸展 的 层次 也 愈 多 。 而 堆栈 中 的 每 一 个 这 样 的 层次 ， 就 称 
为 一 个 “框架 ”， 即 frame。 当 子 程序 和 调用 它 的 程序 都 在 同 ， 空 间 中 时 ， 堆 栈 的 伸展 ， 也 就 足 堆 栈 中 
柏 染 的 建立 十 很 自然 的 ,因为 站 先 call 指令 本 吴 就 会 将 返 半 地 址 日 动 压 入 堆栈 , 而 调 放 参数 则 通过 push 
指令 未 入 堆栈 。 其 次 ， 在 堆栈 中 为 局 部 变量 分 配 空间 也 很 简单 ， 只 要 在 进入 了 程序 之 后 适当 调整 堆栈 
外 就 可 以 了 。 然 而 ， 当 -者 不 在 同 空间 时 ， 情 况 就 比较 复杂 了 。 从 菏 种 意义 上 讲 ， 中 断 处 理 、 异 
常 处 理 以 及 系统 调用 ， 都 可 以 看 作 是 子 程序 调用 ， 只 个 过 调用 者 在 用 户 空 间 而 子 程序 在 系统 空间 。 所 
以 ， 在 返回 到 用 户 空间 前 儿 ， 系 统 罕 间 堆 栈 的 内 容 ， 也 就 是 指针 regs 所 指向 的 pt regs 数据 结构 ， 实 际 
上 就 是 一 个 框架 。 这 个 框架 的 内 容 决定 了 当 处 理 器 回 到 用 户 空间 时 从 何 处 继续 执行 指令 ， 用 户 空 间 堆 
栈 在 何 处 以 及 各 个 寄存 器 的 内 容 。 现 在 ， 既 然 要 求 处 理 器 在 问 到 用 户 空 间 时 要 执行 田 一 段 程 序 ， 就 得 
在 系统 空间 雄 栈 中 为 之 准备 一 个 不 同 的 框架 。 叫 是 ， 最 终 还 得 要 癌 到 当初 作出 系统 调用 或 者 被 中 断 的 
地 方 去 ， 所 以 电 先 的 框架 也 不 能 丢掉， 要 供 存 起 来 。 保 存 任 那 里 呢 ? 一 个 进程 的 系统 空间 堆栈 的 大 小 
是 很 有 限 的 〈 见 第 3 章 )， 所 以 最 合理 的 就 是 把 它 作 为 信和 所 处 理 程序 的 附加 局 部 虽 ， 也 就 是 傈 存在 进程 
的 用 户 空 间 堆 栈 中 的 内 调用 该 处 理 程 序 而 形成 的 查 粱 里。 这样 ， 就 有 必要 在 进入 用 户 空 间 执行 信号 处 
理 程 序 之 前 ， 就 准备 好 用 户 空 间 挫 栈 中 的 框架 ， 上 只 有 如 此 才能 先 把 原先 的 框架 复制 到 用 户 空间 的 框架 
中 作为 局 部 量 保 存 起 来 ， 回 到 系统 空间 中 以 后 上 月 从 那里 复制 回来 。 框 架 的 形成 是 在 程序 运行 过 程 中 ， 
特别 是 在 子 程序 调用 的 过 程 中 自然 形成 的 ， 但 是 己 架 的 形成 也 有 其 规律 可 循 。 坝 在 尚未 执行 对 信号 处 
理 程序 的 调用 ， 当 然 也 不 存在 调用 该 处 理 程 序 的 框架 ， 所 以 实际 上 是 按照 形成 框架 的 规律 先 作 好 准备 ， 
孜 先 在 用 户 空间 堆栈 中 打下 一 些 埋伏 ，。 

为 一 个 问题 是 ， 在 用 户 衬 间 执 行 完 信号 处 型 程序 以 后 ， 义 怎样 重 巡 系统 衬 间 ?我们 知道 ， 丛 用户 
空间 进入 系统 空间 的 手段 无 非 束 是 中 断 、 异 第 以 及 陷阱 ， 刷 系统 调用 正 是 陷阱 的 运用 。 电 然 ， 中 汤 和 
异常 都 不 如 系统 调用 更 为 合适 ,所 以 内 核 中 为 了 这 个 目的 出 专门 设置 了 一 个 系统 调用 sigreturn( )。 不 过 ， 
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要 求 用 户 在 其 信和 号 处 理 程序 中 调用 一 个 特别 的 库 函 数 或 系统 调用 是 不 大 合适 的 。 因 为 一 来 那样 就 对 信 
写 处 理 程 序 有 了 特殊 的 鉴 求 ， 二 来 更 难以 保 讨 用 户 不 会 忘记 住 其 程序 中 作出 这 样 的 调用 ， 并 且 C 编译 
也 难以 保证 在 编译 时 加 以 检查 当然， 也 开 非 绝对 不 可 能 )。 所 以 ， 最 好 是 由 内 核 在 启动 信号 处理 程 序 
时 自动 地 插入 这 个 调用 。 

这 样 ， 思 路 就 渐渐 清晰 了 。 整 个 过 程 大 致 上 可 以 归纳 为 以 下 这 些 步 又 : 

(1) 在 用 户 空间 堆栈 中 为 信号 处 理 程序 的 执行 预先 创建 一 个 框架 ， 框 架 中 包括 一 个 作为 局 部 量 的 

数据 结构 ， 并 把 系统 空间 堆栈 中 的 “原始 框架 ”保存 到 这 个 数据 结构 中 。 

(2) 在 信号 处 埋 程序 中 插入 对 系统 调用 sigreturn( ) 的 调用 。 

(3) 将 系统 空间 堆栈 中 “原始 框 架 ” 修 改 成 为 执行 信号 处 理 程序 所 寓 的 框架 。 

(4) “返回 ”到 用 户 空 间 ， 但 是 却 执 行 信和 与 处 理 程序 。 

(5) ”信和 号 处 理 程序 执行 完毕 以 后 ， 遂 过 系统 调 几 sigreturn( ) 旱 返 系 统 宁 间 。 

(6) 在 系统 调用 sigreturn( ) 中 从 用 户 空间 恢复 “原始 框 集 ”。 

(7) 再 返回 到 用 户 空间 ， 继 续 执 行 原先 的 用 户 程 序 。 

知道 了 这 个 大 致 过 程 ， 有 关 的 源 代 亿 就 比较 容易 理解 了 。 先 来 看 文件 arch/i386/kernel/signal.c 中 的 
函数 setup frame( ): 


[ret with reschedule( ) > do. signal( ) > handle signal( ) > setup frame( )] 


388 static void setup frame(int sig, struct k sigaction *ka, 


389 sigset t *sct, struct pi regs * regs) 

390 { 

391 struct sigframe *frame; 

392 int err = 0; 

393 

394 frame = get sigframe(ka, regs, sizeof (*frame)) ; 

395 

396 if (laccess ok(VERIFY WRITE, frame, sizeof (*frame) ) ) 

397 goto give sigsegv; 

398 

399 err |= | put user((current-»exec domain 

400 && current-^exec domain->signal invmap 
401 && sig < 32 

402 ? current-»exec domain->signal invmap[sig] 
403 : sig), 

404 &frame-^sig); 

405 if (err) 

406 goto give sigsegv; 

407 

408 err |= setup sigcontext (&frame—sc, &frame->fpstate, regs, set-^sig[0]); 
409 if (err) 

410 goto glve sigsegv; 

411 

412 if ( NSIG WORDS > 1) { 

413 err |= copy to user(frame— extramask, &sct-^sig[l], 
414 sizeof (frame-^extramask)); 
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163 


"if 
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} 


if (err) 
goto give slgsegv; 


/* Set up to return from userspace. If provided, use a stub 
already in userspace. */ 
if (ka-sa. sa flags & SA RESTORER) { 





err |= | put user(ka-^sa.sa restorer, &frame—pretcode) ; 
} else { 
err |» put user(frame— retcode, &frame->pretcode) ; 
/* This is popl %eax ; movl $,%eax ; int $0x80 */ 
err |= | put user(Oxb858, (short *) (frame-^retcodet0)); 
err |= put user( NR sigreturn, (int *) (frame->retcodet2)) ; 
err |= put user(0x80cd, (short *) (frame->retcode+6) ) ; 
j 
if (err) 


goto give sigsegv; 


/* Set up registers for signal handler */ 
regs-^esp = (unsigned long) frame; 
regs->eip = (unsigned long) ka-?sa.sa handler; 


set fs(USER DS); 
regs-?xds = | USER DS; 
regs->xes = | USER D$; 
regs-?xss = | USER DS; 
regs—>xcs = . USER CS; 
regs->eflags &- "TF MASK: 


DEBUG SIG 
printk( SIG deliver (%s:%d): sp-*p pc-*p ra=%p\n”, 
current—>comm, current-»pid, frame, regs-^elp, frame-?pretcode) ; 


Hendif 


return; 


give SIgSsegv: 


} 


/* 


if (sig == SIGSEGV) 
ka->sa, sa handler = SIG DFL; 
force sig(SIGSEGV, current); 


首先 是 用 户 空 间 中 的 框架 ， 即 sigframe 数据 结构 ， 这 也 是 在 arch/i386/kernel/signal.c 中 定义 的 : 


* Do a signal return; undo the signal stack. 
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164 */ 

165 

166 struct sigframe 

167 { 

168 char *pretcode; 

169 int sig; 

170 struct sigcontext sc; 
171 struct _fpstate fpstate; 
172 unsigned long extramask[ NSIG WORDS-1]; 
173 char retcode[8]; 

174 by 


这 个 数据 结构 实际 上 上 只 是 框架 的 一 部 分 ， 因为 具体 的 信号 处 理 程 序 本 身 也 会 有 其 局 部 变量 。 所以， 
这 个 数据 结构 中 的 成 分 都 是 “附加 ”局 部 量 ， 而 对 于 信和 号 处 理 程 序 来 说 是 不 可 见 的 《在 信和 号 处 理 程序 
中 不 能 引用 这 些 局 部 量 )。 其 中 sigcontext 数据 结构 的 定义 在 include/asm-i386/sigcontext.h 中 


57 struct sigcontext | 

58 unsigned short gs, gsh; 
59 unsigned short fs, __fsh; 
60 unsigned short es, __esh; 
61 unsigned short ds, | dsh; 
62 unsigned long edi; 

63 unsigned long esi; 

64 unsigned long ebp; 

65 unsigned long esp; 

66 unsigned long ebx; 

67 unsigned long edx; 

68 unsigned long ecx; 

69 unsigned long eax; 

70 unsigned long trapno; 

71 unsigned long err; 

72 unsigned long eip; 

73 unsigned short cs, __csh; 
74 unsigned long eflags; 

75 unsigned long esp at signal; 
76 unsigned short ss, __ssh; 
77 struct _fpstate * fpstate; 
78 unsigned long oldmask; 

79 unsigned long cr2; 
80s}; 


显然 ， 这 个 数据 结构 就 是 用 来 保存 系统 空间 堆栈 中 的 原始 框架 的 。 至 于 sigframe 结构 中 其 他 成 分 
的 作用 与 用 途 ， 等 一 下 就 会 清楚 。 框 架 的 结构 人 确定 了 ， 还 要 确定 其 在 用 户 空间 中 的 位 置 ， 这 束 是 
get sigframe( ) 要 做 的 事  Carch/i386/kernel/signal.c): 


[ret with reschedule( ) > do signal( ) > handle signal( ) > setup frame( ) > get. sigframe( )] 
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361 /* 

362 * Determine which stack to use.. 

363 */ 

364 static inline void * 

365 get sigframe(struct k sigaction *ka,struct pt regs * regs,size t frame size) 
366 { 

367 unsigned long esp; 

368 

369 /* Default to using normal stack */ 

370 esp = regs— esp; 

371 

372 /* This is the X/Open sanctioned signal stack switching.  */ 
373 if (ka->sa. sa flags & SA ONSTACK) { 

374 if (! on sig stack (esp)) 

375 esp = eurrent-2sas ss sp + current-^sas ss size; 
376 ) 

377 

378 /* This is the legacy signal stack switching. */ 

379 else if ((regs—->xss & Oxffff) != | USER DS && 

380 !(ka->sa. sa flags & SA RESTORER) && 

381 . ka->sa.sa restorer) { 

382 esp = (unsigned long) ka->sa. sa_restorer; 

383 } 

384 

385 return (void *) ({esp - frame size) & -8ul); 

386 } 


这 里 的 regs -> esp 是 用 户 空间 中 当前 的 堆栈 指针 ， 也 就 是 进入 系统 空间 之 前 的 堆栈 指针 ， 所 以 在 
典型 情况 下 执行 信号 处 理 程序 的 框架 就 要 从 这 一 点 往 下 伸展 。 但 是 ， 有 两 个 例外 。 第 一 个 例外 是 用 户 
进程 已 经 通过 系统 调用 sigaltstack( ) 为 信号 处 理 程 序 的 执行 设置 了 替换 堆栈 ， 并 日 在 设置 “信号 向 量 ” 
时 将 flags 中 的 标志 位 SA_ONSTACK 设置 成 1。 这 种 情况 下 当前 进程 的 task. struct 结构 中 sas_ss_sp 和 
sas ss size 分 别 为 所 设置 的 堆栈 位 置 和 大 小 ， 而 (sas ss sp--sas ss size) 则 为 该 堆栈 空间 的 顶点 ， 堆 
栈 从 这 一 点 开始 向 下 伸展 。 不 过 ， 先 要 检查 一 证 是 否 已 经 在 这 个 楚 换 堆栈 上 。 这 里 inline 函数 
on sig stack( ) 的 定义 为 (sched.h): 


[ret with reschedule( ) > do_signal( ) > handle signal( ) > setup_frame( ) > get. sigframe( ) 
> on, sig. stack( )] 


621 /* True if we are on the alternate signal stack. */ 

622 

623 static inline int on sig stack(unsigned long sp) 

624 { 

625 return (sp current->sas_ss_sp < current->sas_ss_size); 
626 } 


第 二 个 例外 与 在 执行 完 信 号 处 理 程 序 后 重 返 系 统 空间 的 过 程 有 关 。 如 前 所 述 ， 最 妥当 的 办 法 是 让 
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内 核 自动 插入 一 些 代 码 , 通过 系统 调用 sigreturn( ) 解 决 这 个 问题 。 也 就 是 说 , 把 这 个 问题 交 给 操作 系统 ， 
用 户 进程 就 不 用 操 这 个 心 了 。 可 是 在 发 展 的 过 程 中 有 过 -- 段 时 期 ， 曾 经 在 系统 调用 sigaction( ) 的 界面 
上 提供 了 - :个 手段 ,让 用 户 给 定 一 段 程序 用 于 这 个 目的 ,这 就 是 sigaction 数据 结构 中 的 指针 sa_restorer。 
现在 ， 系 统 调 用 sigaction( AY “man” Hmi c£ 9] At sa_restorer“ 已 经 过 时 ”并 日 “不 应 使 用 ”但 
是 出 于 兼容 的 需要 还 得 苦 虑 其 存在 。 所 以 ， 如 果 使 用 了 sa_restorer， 就 要 把 框架 的 顶点 设置 在 这 个 位 置 
d 

至 此 ， 框 架 的 顶点 已 经 人 确定。 由 十 堆栈 是 向 下 伸展 的 ， 所 以 这 个 框架 《其 实 是 框架 的 一 部 分 ) 
的 起 始 地 址 在 其 下 方 相差 一 个 frame. size 的 地 方 , 而 frame_size 正 是 sigframe 数据 结构 的 大 小 。 注意 这 
里 的 无 符号 长 整数 一 8 实际 上 是 0xffff fff8， 用 以 对 齐 框 保 起 始 地 址 的 边界 。 这 样 ， 对 于 信号 处 理 程序 ， 
这 个 sigframe 数据 结构 就 相当 于 一 个 额外 的 调用 参数 。 

用 户 空间 框架 的 位 置 frame 已 经 确定 ， 让 我 们 回 到 setup_frame( ) 中 。 接 着 检验 一 下 用 户 空间 中 的 
这 一 部 分 是 否 可 写 ， 然 后 就 是 往 用 户 空 间 的 这 个 框架 中 复制 信息 了 。 这 里 的 __put_user( ) 将 其 第 一 个 参 
数 复制 到 用 户 空间 中 出 其 第 二 个 参数 所 指向 的 地 方 。 首 先是 frame -> sig, AAI SEA AREA. (EA 
的 “执行 域 "” 即 Unix 变种 里 〈 见 第 4 章 中 有 关内 容 )， 为 信号 定义 的 数值 可 能 会 有 所 不 同 。 在 这 种 情 
况 下 相应 exec. domain 数据 结构 中 的 指针 signal invmap 会 指向 一 个 信和 号 变换 表 ， 上 所 以 要 把 这 个 内 素 考 
虑 进去 。 下 面 就 是 复制 系统 空间 堆栈 上 的 pt regs 结构 以 及 一 些 有 关 的 内 容 了 ， 包 拓 有 关 浮 点 处 理 器 的 
内 容 和 信号 屏蔽 位 图 Careh/i386/kernel/signal.c ): 


[ret_with_reschedule( ) > do_signal( ) > handle_signal( ) > setup frame( ) > setup_sigcontext( )] 


314 /水 

315 * Set up a signal frame. 
316 a / 

317 


318 static int 
319 setup_sigcontext (struct sigcontext *sc, struct  fpstale *fpstate, 


320 struct pt_regs *regs, unsigned long mask) 

321 { 

322 int tmp, err = 0; 

323 

324 tmp = 0: 

325 | asm (“movl %%gs, %0” : “=r” (tmp): 70” (tmp)); 

326 err |= put user(tmp, (unsigned int *)&sc->gs) ; 

327 . asm  (^movl %%fs, %0” ; “=r” (tmp): ^0" (tmp)) ; 

328 err |= | put user(tmp, (unsigned int *)&sc-^fs); 

329 

330 err |= | put user(regs-?xes, (unsigned int *)&sc—>es) ; 
331 err |= put user(regs-2xds, (unsigned int *)&sc—>ds); 
332 err |= | put user(regs-^edi, &sc-^edi); 

333 err |= | put user(regs-?esi, &sc-^esi); 

334 err |= | put user(regs-P»ebp, &sc-^ebp); 

335 err |= | put user(regs— esp, &sc-^esp); 

336 err |= | put user(regs-^ebx, &sc-^ebx); 

337 err |= | put user(regs-^»edx, &sc—>edx) ; 


- 752 . 


第 6 章 传统 的 Unix 进程 间 通 信 





338 err |= put user(regs->ecX，&sc->ecx) ， 

339 err |= __put_user(regs—eax, &sc—>eax); 

340 err |= __put user(current-^thread. trap no, &sc->trapno) ; 
341 err |= __ put user(current-^thread. error code, &sc—>err): 
342 err |= put user(regs-^eip, &sc—eip): 

343 err |= _ put_user(regs—>xcs, (unsigned int x*)&sc-»cs); 
344 err |= | put_user(regs—>eflags, &sc—>ef lags) ; 

345 err |= _ put_user(regs—>esp, &sc—>esp_ at signal); 

346 err |= __put_user(regs-—>xss, (unsigned int *)&sc~>ss); 
347 

348 tmp = save i387(fpstate); 

349 if (tmp < 0) 

350 err = I: 

351 else 

352 err [= __put_user(tmp ? fpstate : NULL, &sc—fpstate); 
353 

354 /* non-iBCS2 extensions.. */ 

355 err |= __put_user (mask, &sc—>oldmask) ; 

356 err |= __put_user(current~>thread. cr2，&sc->cr2) : 

357 

358 return err; 

359  ] 


我 们 把 这 个 函数 的 代码 留 给 读者 。 完 成 以 后 ， 如 果 信 号 屏蔽 位 图 的 大 小 超过 个 长 整数 的 大 小 ， 
则 还 要 把 超出 的 部 分 也 复制 过 去 。 

下 面 是 关键 的 部 分 ， 也 就 是 对 重 返 系统 空间 进行 安排 了 。 人 在 sigframe 数据 结构 中 有 个 8 TOS 
组 retcode[ ], 还 有 个 指针 pretcode. 指针 pretcode 指向 一 段 使 进程 在 执行 完 信号 处 理 程 序 后 重 返 系 统 空 
间 的 代码 。 如 果 用 户 提供 了 这 么 一 个 函数 ， 就 把 该 函数 指针 复制 到 pretcode 中 ; 否则， 在 典型 的 情况 
下 ， 就 使 这 个 指针 指向 retcode[ ] ( 见 424 行 )， 并 且 在 retcode[ ] 中 预先 写 入 这 样 三 条 指令 ( 见 426 一 428 
fT): 


popl %eax; 
movil $ NR sigreturn , %eax; 
int $0x80; 


这 三 条 指令 正好 占 8 个 字 节 。 指令 中 的 __NR_sigretum 为 系统 调用 sigreturn( ) 的 调用 号 。 经 过 这 样 
处 理 以 后 ， 用 户 空间 中 堆栈 的 构成 如 图 6.7 所 示 。 

这 里 此 指出 ， 当 前 进程 返回 到 用 户 空 间 时 《下 面 就 会 看 到 )， 是 “返回 ”而 不 是 “调用 ”进入 信和 号 
处 理 程序 的 ， 所 以 在 pretcode 的 下 方 不 会 当 压 入 :个 “返回 地 址 ”。 这 样 ，pretcode 就 正好 处 在 本 来 应 
该 是 信号 处 理 程序 运行 框架 中 返回 地 址 的 位 置 上 。 在 信号 处 理 程序 的 末尾 执行 ret 指令 时 ， 就 会 把 必 当 
成 返回 地 址 而 转 入 预先 “埋伏 ”在 retcode[ j] 中 的 王 条 指令 ， 或 者 由 用 户 另 行 提供 的 sa_restorer 函数 。 
而 位 于 pretcode 上 方 的 sig， 则 成 为 对 信和 号 处 理 程序 的 第 一 个 调用 参数 。 可 见 ，sigframe 数据 结构 的 内 
容 ， 包 括 各 个 字段 的 次 序 ， 是 根据 整个 执行 过 程 精心 设计 好 的 ， 不 能 随便 更 改 。 
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uat. 堆栈 中 原来 的 内 容 
Z LLL 
堆栈 向 下 伸展 3 条 指令 ，8 个 字 节 retcode[ ] 


sigframe 结构 
sigframe 的 其 


他 成 分 





信号 处 理 程序 中 
的 局 部 变量 


信号 处 理 程序 
的 运行 框架 


图 6. 7 信和 号 处 理 结束 返回 系统 空间 前 用 户 空间 堆栈 结 


读者 也 许 要 问 ， 这 里 一 共 就 是 三 条 指令 ， 进 程 在 执行 “int $0x80” 指 令 进入 sigreturn( ) 系 统 调用 
之 后 最 终 还 要 回 到 用 户 空间 来 ， 屠 时候 按理 应 该 回 到 它 的 下 -条 指令 ， 可 是 这 里 没有 指令 了 啊 。 答 案 
是 ， 在 系统 调用 sigreturn( ) 中 ， 要 从 用 户 空间 的 这 个 框架 中 恢复 转 入 用 户 空间 之 前 的 “原始 框架 ”， 所 
以 到 那 时 候 就 会 返回 到 原先 应 该 去 的 地 方 ， 也 就 是 当初 发 生 中 断 、 异 常 或 系统 调用 的 地 方 。 

安排 好 了 用 户 空 间 中 的 框架 ， 就 要 安排 系统 空间 的 框架 了 。 这 里 最 关键 的 是 返回 到 用 户 空 间 时 的 
堆栈 指针 regs -> esp 种 取 指令 指针 regs -> eip。 还 有 就 是 一 些 段 寄存 器 ， 不 过 其 实 这 些 寄 存 器 的 值 本 来 
也 就 是 _USER_DS 和 __USER_CS， 只 有 在 特殊 的 情况 下 才 有 例外 。 至 于 一 些 通用 寄存 器 ， 如 geax， 
%ebx 等 ， 则 对 于 信号 处 理 程序 并 光 意 义 ， 所 以 不 需要 设置 。 最 后 ， 处 理 器 在 用 户 空间 时 有 可 能 正 处 于 
硬件 跟踪 模式 ， 而 信号 处 理 程序 相应 于 中 断 处 理 ， 所 以 在 进入 这 段 程序 时 要 把 硬件 跟踪 关闭 ， 也 束 是 
在 标志 寄存 器 的 映 象 regs -> eflags 中 将 TF 位 清 0。 经 过 这 样 的 安排 以 后 ， 就 为 表面 上 按 正 常 途径 “ 返 
回 ” 用 户 空间 ， 但 是 实际 上 却 转 入 信号 处 埋 程序 作 好 了 准备 。 最 终 ， 处 理 器 经 由 setup frame( )， 
handle_signal( ) 和 do_signal( ) 逐 层 返 回 到 entry.S 中 的 signal_return， 从 而 进入 restore_all。 从 那 以 后 的 
过 程 读者 应 该 已 经 熟悉 了 《〈 见 第 3 章 )。 由 寺 regs -> esp 和 regs -> eip 的 设置 ， 处 理 器 进入 用 户 空间 时 
从 ka -> sa.sa_handler 所 指向 的 地 方 开始 执行 ， 而 堆栈 指针 则 指向 前 面 设置 好 了 的 框架 ， SE y V ABS 
frame -> pretcode， 邮 信号 处 理 程序 的 返回 地 址 ， 正 好 跟 在 用 户 空间 中 通过 call 语 4 和 句 进入 信号 处 理 程 序 
时 一 样 。 

守 号 处 理 程序 执行 完毕 以 后 , 处 理 器 又 道 过 系统 调用 sigretum( ) 进 入 系统 空间 。 内 核 中 实现 这 个 系 
统 调 用 的 主体 是 sys_sigreturn( )， 其 代码 也 在 arch/i386/kernel/signal.c 中 : 


249 asmlinkage int sys_sigreturn (unsigned long __unused) 

250 { 

251 struct pt regs *regs = (struct pt regs *) & unused; 

252 struct sigframe *frame = (struct sigframe *) (regs—>esp - 8); 
253 Sigset_1 set; 

294 int eax; 

29D 
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256 if (verify area(VERIFY READ, frame, sizeof (*frame) )) 
257 goto badframe; 

258 if ( get user(set. sig[0], &frame—>sc. oldmask) 
259 || C NSIG WORDS > 1 

260 && | copy from user (&set. sigl1], &frame—>extramask, 
261 sizeof (frame—>extramask) ))) 

262 goto badframe; 

263 

264 sigdelsetmask(&set, ~ BLOCKABLE) ; 

265 spin lock irq(&current-^sigmask lock); 

266 current—>blocked = set; 

267 recalc_sigpending (current) ; 

268 spin unlock irq(&current-^sigmask lock); 

269 

270 if (restore sigcontext(regs, &frame—>sc, &eax)) 
211 goto badframe; 

212 return eax; 

213 

274 badframe: 

275 force_sig (SIGSEGV, current), 

276 return 0; 

277 } 


显然 ， 这 段 程序 的 作用 ， 就 是 从 用 户 空间 执行 信号 处 理 程序 的 框架 中 恢复 当初 系统 空间 中 的 原始 
框架 。 我 们 把 这 段 程 序 留 给 读者 自己 阅读 ， 不 过 有 两 点 要 提示 一 下 。 

首先 ， 系 统 调用 的 框架 就 是 系统 空间 堆栈 上 的 pt_regs 数据 结构 。 在 sys sigreturn( ) 中 取 第 一 个 调 
用 参数 __unused 的 地 址 就 得 到 了 这 个 结构 的 起 始 地 址 。 读 者 不 妨 回 顾 一 下 第 3 章 中 的 有 关内 容 。 在 执 
行 完 宏 操作 SAVE_ALL 以 后 ， 系 统 空间 堆栈 中 的 最 后 一 项 ， 也 就 是 pt_regs 结构 中 的 第 -项 ， 是 %ebx 
的 内 容 。 它 的 下 面 就 是 调用 sys_sigreturn( ) 的 第 一 个 (也 是 惟一 的 参数 __unused。 不 过 这 里 并 不 需要 
用 到 这 个 参数 的 内 容 ， 而 只 是 酉 知道 它 在 堆栈 中 的 地 址 ， 因 为 这 就 是 pt_regs 数据 结构 的 起 始 地 址 。 

还 有 ， 就 是 用 户 空 间 中 的 框架 ， 也 就 是 sigframe 数据 结构 的 起 始 地 址 frame。 该 结构 中 底部 的 第 … 
项 pretcode 就 是 信号 处 理 程序 的 返回 地 址 ， 所 以 当 处 理 器 从 信号 处 理 程 序 返 回 时 ， 堆 栈 指针 就 调整 到 
了 这 一 项 的 上 方 ， 也 就 是 起 始 地 址 加 4 个 字 节 的 地 方 。 然后， 前 述 三 条 指令 中 的 第 一 条 “popl pear” 
又 使 堆栈 指针 往 上 调 了 4 个 字 节 。 这 样 ， 当 处 理 器 在 用 户 空 间 执行 int 指令 进入 系统 空间 时 ， 其 用 户 空 
间 的 堆栈 指针 指向 该 sigframe 结构 的 起 始 地 址 再 加 8 个 字 节 的 地 方 ， 所 以 (regs->esp 一 8) 就 是 这 个 结 
构 的 起 始 地 址 。 

函数 中 其 余 的 代码 ， 以 及 处 理 器 使 用 恢复 后 的 原始 框架 返回 用 户 空间 的 过 程 ， 读 者 应 该 不 会 有 什 
么 困难 了 。 

读者 也 许 要 问 , 既然 通过 sigreturn( ) 重 返 系 统 室 间 以 后 实际 上 不 干什么 事 , 只 是 恢复 了 原始 框架 以 
后 就 从 “原先 的 系统 调用 《或 中 断 )” 返 回 了 ， 那 么 是 否 可 以 简化 一 点 呢 ? 例如 ， 可 以 在 用 户 空间 堆栈 
中 ， 从 当前 的 系统 调用 框架 向 下 调整 ， 先 将 系统 空间 堆栈 中 的 返回 地 址 搬 到 用 户 空间 堆栈 中 ， 而 把 系 
统 空 间 堆栈 中 的 返回 地 址 ， 改 成 指向 用 户 空 间 的 信号 处 理 程序 。 这 样 ， 从 当前 系统 调用 返 同 时 就 会 返 
回 到 用 户 空间 中 的 信号 处 理 程序 。 而 在 执行 完 信号 处 理 程序 后 碰 到 ret 指令 时 ， 则 又 返回 到 原先 进行 系 
统 调 用 或 发 生 中 断 的 地 方 。 这 样 , 整个 过 程 简化 了 , 代码 也 简单 了 , 而 系统 调用 sigreturn( ) 也 不 需要 了 ， 

- 755 . 


Linux 内 核 源 代码 情景 分 析 〈 上 册 ) 


岂 不 很 好 ?事实 上， 早期 的 unix (如 第 6 版 ) 正 是 这 样 做 的 。 但 是 在 这 样 的 解决 方案 中 必须 有 个 保证 ， 
就 是 用 户 空间 的 信和 叶 处 理 程序 对 于 处 理 器 的 “工作 现场 ”《 邯 内 核 中 通过 SAVE ALL. 保存 的 所 有 寄存 
器 的 内 容 ) 完全 “透明 ” 即 不 改变 这 些 寄存 器 的 内 容 。 例 如 ， 如 果 能 保证 在 进入 信和 号 处 理 程序 时 一 定 
会 调用 - 段 类 似 于 SAVE_ALL 的 程序 , 而 在 离开 信和 号 处 理 程序 之 前 则 调用 一 段 类 似 于 RESTORE_ALL 
的 程序 ， 那 就 没有 问题 了 。 然 而 ， 信 号 处 理 程序 是 由 用 户 开发 ， 且 在 用 户 空间 中 运行 的 ， 没 有 一 个 通 
用 有 效 并 且 可 靠 的 方法 可 以 保证 由 用 户 开 发 的 程序 对 寄存 器 内 容 的 透明 性 。 明 白 了 这 一点， 就 可 以 理 
解 为 什么 要 煞费苦心 地 来 设计 个 sigretum ( ) 系 统 调用 了 。 

通过 对 从 设置 “信号 向 量 ”、 发 送信 和 号、 到 执行 信号 处 理 程 序 的 全 过 程 的 了 解 ， 并 日 将 此 过 程 与 中 
断 机 制 中 设置 “中 断 向 量 ” 中 断 请 求 、 到 执行 中 断 处 理 程序 的 过 程 加 以 类 比 ， 读 者 应 该 对 信号 机 制 有 
了 比较 深入 的 理解 。 当 然 ， 进 程 之 问 通过 信号 机 制 的 互动 些 有 用 户 程 序 的 参与 ， 而 那 已 是 属于 应 用 程 
序 设计 的 范畴 了 。 有 兴趣 〈 或 者 有 需要 ) 的 读者 可 以 参考 有 关 专 着 。 


6.5 系统 调用 ptrace( ) 和 进程 跟踪 


为 方 使 应 用 软件 的 开发 和 调试 , 从 Unix 的 早期 版 本 开始 就 提供 了 一 种 对 运行 中 网 进 程 进行 跟踪 和 
控制 的 手段 ， 那 就 是 系统 调用 ptrace( )。 通 过 ptrace( )， 一 个 进程 可 以 动态 地 读 / 写 男 一 个 进程 的 内 存 和 
寄存 器 ， 包 括 其 指令 空间 、 数 据 空 间 、 堆 栈 以 及 所 有 的 寄存 器 。 与 信号 机 制 〈《 以 及 其 他 手段 ) 相 结合 ， 
就 可 以 实现 让 -个 进程 在 男 一 个 进程 的 控制 和 跟踪 下 运行 的 目的 。 GNU 的 调试 工具 gdb 就 是 一 个 典型 
的 实例 。 道 过 gdb， 软 件 开发 人 员 可 以 使 一 个 应 用 程序 在 gdb 的 “监视 ”和 操纵 下 受 控 地 运行 。 对 于 受 
gdb 控制 的 进程 ， 可 以 通过 在 其 程序 中 设置 断 点 , 检查 其 堆栈 以 确定 函数 调用 路 线 ,检查 并 改变 局 部 溉 
量 或 全 局 变量 的 内 容 等 等 方法 ， 来 进行 调试 。 显 然 ， 所 有 这 些 手段 从 概念 上 说 都 确实 属于 进程 问 “ 通 
信 ” 的 范畴 ， 但 是 必须 指出 ， 这 只 是 为 软件 调试 而 设计 和 设立 的 ， 不 应 该 用 于 一 般 的 进程 闻 通 信 。 一 
般 而 言 ， 通 信和 是 要 由 双方 都 介入 且 互 相 协调 才能 完成 的 。 就 拿 “ 管 道 ” 来 说 ， 虽 然 管 道 是 单 向 的， 但 
一 定 得 由 一 方 写 ， 另 一 方 读 才能 达到 目的 。 再 拿 信号 来 说 ， 虽 然 信号 是 异步 的 ， 也 就 是 接收 信号 的 一 
方 并 不 知道 信号 会 在 什么 时 候 到 来 ， 因 而 在 应 用 程序 中 并 不 主动 有 意 地 去 检查 有 和 否 信号 到 达 。 但 是 从 
总 体 而 言 ， 接 收 方 知道 信号 可 能 会 到 来 ， 并 且 为 此 在 应 用 程序 中 作出 了 安排 。 而 当 信号 真 的 到 来 叶 ， 
接收 方 也 “知道 ”其 到 来 ， 并 根据 事先 的 安排 作出 反应 。 然 而 ， 由 ptrace ) 所 实现 的 “通信 ” 却 完 全 古 
单方 面 的， 被 跟踪 的 进程 甚至 并 不 知道 〈 从 应 用 程序 的 角度 而 言 ) 自己 是 在 受到 控制 和 监视 的 条 件 下 
运行 。 从 这 个 角度 讲 ，ptrace( ) 其 实 又 不 属于 “进程 问 通 信 ”。 

那么 ， 怎 样 通过 ptrace( ) 来 实现 上 述 这 些 目的 昵 ? 先 来 看 看 这 个 系统 调用 的 格式 : 


int ptrace(int request , int pid, int addr, int data); 


参数 pid 为 进程 号 ， 指 明了 操作 的 对 象 ， 人 而 request， 则 是 具体 的 操作 ， 文 件 include/linux/ptrace.h 
中 定义 了 所 有 可 能 的 操作 码 : 


8 #define PTRACE_TRACEME 
9 #define PTRACE PEEKTEXT 
10 #define PTRACE PEEKDATA 
11 &define PTRACE PEEKUSR 
12 #define PTRACE POKETEXT 
13 define PTRACE POKEDATA 
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14 #define PTRACE POKEUSR 6 

15 #define PTRACE CONT 7 

16 define PTRACE KILL 8 

17 define PTRACE SINGLESTEP 9 

18 

19 #define PTRACE ATTACH 0x10 
20 #define PTRACE DETACH 0x11 
21 

22 #define PTRACE SYSCALL 24 


跟踪 者 《如 gdb) 先 要 通过 PTRACE ATTACH 与 被 跟踪 进程 建立 起 关系 ， 或 者 说 “Attach” 到 被 
跟踪 进程 。 然 后 ， 就 可 以 通过 各 种 PEEK 和 POKE 操作 来 读 / 写 被 跟踪 进程 的 指令 空间 、 数 据 空间 或 但 
各 个 寄存 器 ， 每 次 都 是 MES. H addr 指明 其 地 址 ; 或 者 ， 也 可 以 通过 PTRACE SINGLESTEP. 
PTRACE_KILL, PTRACE_SYSCALL 和 PTRACE_CONT 等 操作 来 控制 被 跟踪 进程 的 运行 。 最 后 ， 通 
过 PTRACE_DETACH 此 被 跟踪 进程 脱离 关系 。 所 有 这 些 操作 都 是 单方 面 的 ， 被 跟踪 进程 既 不 能 折 绝 ， 
也 无 需 “ 合 作 ”。 人 惟一 例外 是 PTRACE_TRACEME， 用 来 主动 接受 跟踪 。 

像 其 他 系统 调用 一 样 ，ptrace( ) 在 内 核 中 的 实现 是 sys_ptrace( ).. HARES arch/i386/kernel/ptrace.c 
中 : 


[sys ptrace( )] 


137 asmlinkage int sys ptrace(long request, long pid, long addr, long data) 


138 f 

139 struct task struct *child; 

140 struct user * dummy - NULL; 

141 int i, ret; 

142 

143 lock kernel( ); 

144 ret = —EPERM; 

145 if (request == PTRACE TRACEME) { 

146 /* are we already being traced? */ 
147 if (current->ptrace & PT PTRACED) 
148 goto out; 

149 /* set the ptrace bit in the process flags. */ 
150 current—>ptrace |= PT PTRACED; 

15] ret = 0; 

152 goto out; 

153 } 


首先 是 对 PTRACE_TRACEME [f] AE E , 2] ai A EE A EAE task_struct FP frs fiz PF. PTRACED. 
这 个 标志 位 的 作用 读者 以 后 会 看 到 。 如 果 不 是 主动 请 求 跟踪 ， 那 就 一 定 有 个 目标 进程 了 。 继 续 往 下 看 
AS: 


[sys ptrace( )] 
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154 ret = ~ESRCH; 

155 read lock(&tasklist lock); 

156 child = find task by pid(pid); 
157 if (child) 

158 get task struct (child); 
159 read unlock(&tasklist lock); 
160 if (!child) 

161 goto out; 

162 

163 ret = —EPERM; 

164 if (pid == 1) /* you may not mess with init */ 
165 goto out tsk; 

166 


函数 find. task. by. pid( )， 顾 名 思 义 就 是 根据 进程 号 找到 目标 进程 的 task, struct 结构 。 可 是 跟踪 着 
怎样 才能 知道 目标 进程 的 进程 号 呢 ? 以 gdb 为 例 有 两 种 情况 。 一 种 情况 是 被 跟踪 进程 本 来 就 是 由 gdb 
通过 fork( ) 和 exec( ) 启 动 的 。 这 种 情况 下 的 命令 行为 : 


gdb prog 
执行 prog 的 进程 本 来 就 是 gdb 的 子 进程 ， 所 以 gdb 当然 知道 它 的 进程 与 。 
另 一 种 情况 是 prog 进程 在 启动 gdb 之 前 已 经 在 运行 。 在 这 种 情况 下 操作 人 员 要 先 弄 清楚 它 的 进程 
号 (如 通过 “ps”)， 再 把 这 进程 号 作为 参数 用 在 启动 gdb 的 命令 行 中 。 此 时 的 命令 行 类 似 于 : 
gdb prog 1234 


因此 ， 在 这 两 种 情况 下 edb 都 会 知道 目标 进程 的 进程 与 。 

不 过 请 注意 ，1 号 进程 ， 即 初始 化 进程 init( ) 是 不 允许 跟踪 的 。 

找到 目标 进程 以 后 ， 要 通过 get_task_struct( ) 递 增 对 子 进程 的 task, struct 所 在 页 面 的 使 用 计数 ， 到 
完成 了 操作 以 后 再 通过 后 面 (468 行 ) 的 free task struct( ) 还 原 。 这 是 因为 有 些 操作 在 过 程 中 可 能 会 发 
生 进 程 调度 (读者 可 以 自己 看 一 下 access. process, vm ) 的 代码 )， 需 要 防止 因为 子 进 程 先 得 到 机 会 运行 
FHE exit( )， 从 而 将 其 task. struct 结构 所 在 页 面 释放 掉 的 可 能 。 

现在 可 以 执行 具体 的 操作 了 ， 先 来 看 PTRACE_ATTACH: 


[sys_ptrace( )] 


167 if (request == PTRACE_ATTACH) { 

168 if (child == current) 

169 goto out_tsk; 

170 if ((!child-^dumpable | | 

171 (current->uid != child~>euid) || 

172 (current~>uid != child->suid) || 

173 (current->uid != child->uid) | | 

174 (current->gid != child-»egid) || 

175 (current-^gid != child->sgid) | | 

176 (!cap issubset(child-^»cap permitted, current->cap_permitted)) |! 
177 (current->gid != child->gid)) && !capable(CAP SYS PTRACE)) 
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178 goto out tsk; 

179 /* the same process cannot be attached many times */ 
180 if (child-^ptrace & PT PTRACED) 
181 goto out tsk; 

182 child->ptrace |= PT PTRACED; 

183 

184 write lock irq(&tasklist lock); 
185 if (child-^p pptr !- current) { 
186 REMOVE LINKS (child); 

187 child->p pptr = current; 

188 SET LINKS (child); 

189 } 

190 write unlock irq(&tasklist lock); 
191 

192 send_sig(SIGSTOP, child, 1): 

193 ret = 0; 

194 goto out_tsk; 

195 } 


跟 踩 不 是 无 条 件 的 。 谁 可 以 跟踪 谁 ， 需 要 满足 一 些 条 件 。 首 先 ， 白 己 不 允许 〈 也 不 必要 ) 跟踪 自 
己 。 除 此 之 外 ，170 行 开始 的 站 语句 给 出 了 这 些 条 件 。 一 般 来 说 ， 两 个 进程 要 属 十 同一 用户 或 同一 组 。 
读者 可 以 参看 “文件 系统 ”一 章 中 的 有 关内 容 ， 搞 清 这 些 条 件 的 含意 。 注 意 这 里 的 capable( ) 定 义 为 
suser( )， 也 就 是 说 如 果 两 个 进程 不 属于 同一 组 ， 就 要 将 当前 进程 提升 为 特权 用 户 进程 才 行 ， 而 这 当然 
也 是 有 条 件 的 。 此 外 ， 被 跟踪 的 进程 必须 是 尚未 受 其 他 进程 跟踪 的 。 所 谓 attach， 或 者 说 建立 起 跟踪 关 
系 ， 就 是 做 三 件 事 : -是 将 被 跟踪 进程 的 PF_TRACED 标志 设 成 1 (182 行 )。 还 有 ， 就 是 如 果 被 跟踪 
进程 不 是 跟踪 者 的 子 进程 就 将 其 “收养 ”为 跟踪 者 的 子 进程 185 一 189 行 )。 最 后 ， 还 要 向 被 跟踪 进程 
发 送 一 个 SIGSTOP 信号 (192 行 )， 这 样 被 跟踪 进程 被 调度 运行 时 就 会 对 信和 号 作出 反应 而 进入 暂停 状 
X 


KS o6 


如 果 不 是 PTRACE_ATTACH 话 ， 那 就 必然 是 对 已 经 处 于 被 跟踪 地 位 的 进程 后 续 操作 了 。 


[sys_ptrace( )] 


196 ret = —ESRCH; 

197 if (!(child->ptrace & PT PTRACED)) 
198 goto out tsk; 

199 if (child->state != TASK STOPPED) { 
200 if (request != PTRACE_KILL) 

201 goto out_tsk; 

202 } 

203 if (child->p pptr != current) 

204 goto out tsk; 


就 是 说 ， 先 要 加 以 核实 。 目 标 进 程 的 PF TRACED aie 1, HRA aR 

子 进程 ， 并 且 处 于 TASK_STOPPED 状态 。 这 也 说 明 ， 如 果 目 标 进程 是 通过 PTRACE_TRACEME 操作 

主动 接受 跟踪 的 话 ， 只 有 其 父 进程 才能 对 其 实行 跟踪 ， 并 且 先 旧 向 其 发 送 一 个 SIGSTOP 信和 号。 所以， 
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跟踪 只 能 对 子 进 程 进行 ， 哪 怕 是 临时 “收养 ”的 子 进 程 。 
通过 了 对 条 件 的 检验 以 后 ， 就 进入 一 个 switch 语句 ， 针 对 不 同 的 操作 码 来 执行 了 : 


[sys. ptrace( )] 


205 switch (request) | 

206 /* when I and D space are separate, these will need to be fixed. */ 
207 case PTRACE PEEKTEXT: /* read word at location addr. */ 

208 case PTRACE PEEKDATA: | 

209 unsigned long tmp; 

210 int copied; 

211 

212 copied = access process vm(child, addr, &tmp, sizeof(tmp), 0); 
213 ret = -EIO; 

214 if (copied != sizeof(tmp)) 

215 break; 

216 ret = put user(tmp, (unsigned long *) data); 

217 break: 

218 j 

219 


PTRACE_PEEKTEXT 操作 从 了 进程 的 指令 室 间 ， 或 称 代 码 段 中 地 址 为 addr 处 读 取 一 个 长 宁 ， 而 
PTRACE PEEKDATA 则 从 子 进程 的 数据 空间 读 一 个 长 字 。 读者 可 以 回顾 一 下 第 2 章 中 有 关 的 内 容 , 在 
Linux 内 核 中 代码 空间 和 数据 空间 实际 上 是 一 致 的 ， 所 以 二 者 可 以 合并 在 一 起 处 再。 函数 
access process vm( ) 的 代码 在 kernel/ptrace.c 中 ， 我 们 把 它 作为 对 第 2 章 的 复习 ， 留 给 读者 自己 阅读 。 
access process vm( ) 是 个 对 给 定 进程 的 存储 空间 进行 读 或 写 的 通用 函数 。 它 先 通过 find. extend. vma( ) 
找到 该 进程 包含 着 给 定 地 址 的 虚 存 区 间 ， 然 后 根据 需要 读 / 写 的 长 度 在 access_mm( ) 中 通过 
access one page( ) 访 问 所 涉及 的 各 个 页 面 。 而 access one page( ) 则 是 对 给 定 进程 的 某 一 页 面 进行 读 写 
的 通用 函数 ， 它 从 进程 的 某 一 虚 存 区 间 ， 也 就 是 vm_area_struct 结构 开始 ， 先 找到 给 定 页 面 所 在 的 页 面 
目录 项 ， 然 后 往 下 找到 相应 的 页 面 项 。 找 到 页 面 项 以 后 ， 就 可 以 将 其 所 映射 的 物理 页 面临 时 映射 到 当 
前 进程 的 虚 存 室 间 中 ， 并 对 其 进行 读 / 写 。 完 成 以 后 ， 就 遂 过 put_user( ) 将 读 取 的 长 字 写 占 当 前 进程 的 
用 户 室 间 。 也 许 有 读者 会 间 ， 当 父 进程 正在 读 子 进 程 的 物理 空间 时 ， 会 不 会 子 进程 也 正好 在 同一 地 址 
上 写 ， 从 而 使 读 出 的 数据 不 正确 呢 ? 不 会 的 。 首 先 ， 前 面 的 检验 已 经 确保 了 子 进 程 止 处 于 “暂停 ” 状 
态 TASK_STOPPED (这 已 经 是 考虑 到 了 多 处 理 器 的 情况 ， 合 寺 在 单 处 理 器 系统 中 ， 则 既然 当前 进程 正 
在 运行 ， 其 子 进程 显然 不 在 这 行 )。 另 外 ， 对 PTRACE_PEEKTEXT 和 PTRACE_PEEKDATA 而 言 ， 所 
读 取 的 只 是 一 个 长 字 ， 在 32 位 的 CPU 中 只 要 一 条 指令 就 完成 了 ， 是 个 “原子 ”操作 。 

IB 下 第 2 章 和 第 3 章 ， 读 者 就 可 以 明白 ， 进 程 的 用 户 空 间 堆 栈 也 在 其 数据 空间 中 ， 所 以 也 可 
以 通过 PTRACE_PEEKDATA 操作 来 恋 子 进程 用 户 空间 的 堆栈 。 当 然 ， 先 要 遂 过 其 他 操作 得 到 其 用 户 
空间 的 堆栈 指针 。 

最 后 ， 还 要 指出 ，PTRACE_PEEKDATA 和 PTRACE_PEEKTEXT 只 能 用 来 读 子 进程 的 用 户 空间 ， 
而 不 能 用 来 读 系 统 CAR) 空间 ， 这 是 由 函数 find extend vma( ) 所 保证 的 。 但 是 ， 子 进程 的 《与 跟踪 
有 关 的 ) 有 些 信息 却 在 系统 空间 中 。 例 如 ， 当 子 进程 处 于 睡眠 或 暂停 状态 时 ， 其 进入 系统 空间 于 儿 的 
寄存 器 内 容 孝 保存 在 恬 的 系统 空间 堆栈 中 〈pt_regs 结构 )， 还 有 些 信 息 则 在 它 的 task. struct 结构 内 部 的 
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一 个 thread_struct 结构 中 。 怎 样 读 取 这 些 信 息 呢 ? 沿 着 ptrace.c 的 代码 继续 往 下 看 : 


[sys ptrace( )] 


220 
221 
222 
223 
224 
225 
226 
227 
228 
229 
230 
231 
232 
233 
234 
235 
236 
231 
238 
239 
240 
241 


/* read the word at location addr in the USER area. */ 
case PTRACE PEEKUSR: { 
unsigned long tmp; 


ret = -EIO; 

if ((addr & 3) || addr « 0 || 
addr ? sizeof(struct user) - 3) 
break; 


tmp = 0; /* Default return condition */ 
if (addr < 17*sizeof (long)) 
tmp = getreg(child, addr); 
if (addr >= (long) &dummy->u debugreg[0] && 
addr <= (long) &dummy->u debugreg[7]) { 
addr -= (long) &dummy—>u debugreg[0]; 
addr = addr >> 2; 
tmp = child-^thread. debugreg [addr]; 
} 
ret = put user (tmp, (unsigned long *) data); 
break; 


JC HRTES BERMERI, BEATER THEER ET GEEACRAUEIBIAO BUSTA 
存 占 的 内 容 ( 注 意 此 时 子 进程 必定 在 系统 空间 路 ， 内 为 调度 和 切换 只 发 生 丁 系统 空间 )。 我 们 先 来 看 这 
一 部 分 。 要 读 取 一 个 寄存 器 的 内 容 时 ， 参 数 addr 必须 是 寄存 器 号 乘 以 4。 对 i386 处 理 器 而 言 共有 17 
个 这 样 的 寄存 器 ， 定 义 于 ptrace.h H. Wit, BH “寄存 器 ” 共 实 并 不 完全 是 字面 意义 上 的 ,例如 BAX 
和 ORIG_EAX 就 算 作 琴 项 , 因为 在 系统 空间 堆栈 的 pt_regs 结构 中 它们 是 有 区 别 的 (系统 调用 使 用 EAX 
来 返回 出 错 代码 )。 当 addr 指明 这 17 个 “寄存 器 ”之 一 时 ， 就 通过 getreg( ) 来 读 取 其 内 容 (代码 在 同 
一 文件 ptrace.c H): 


[sys_ptrace( ) > getreg( )] 


110 
111 
112 


113 . 


114 
115 
116 
117 
118 


static unsigned long getreg(struct task struct *child, 
unsigned long regno) 
{ 


unsigned long retval = “OUL; 


switch (regno >> 2) { 
case FS: 
retval = child->thread. fs; 
break; 
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119 case GS: 

120 retval = child->thread. gs; 

121 break: 

122 case DS: 

123 case ES: 

124 case SS: 

125 case CS: 

126 retval = Oxffff; 

127 /* fall through */ 

128 default: 

129 if (regno > GS*4) 

130 regno -= 2*4; 

131 regno = regno - sizeof(struct pt regs); 
132 retval &- get stack long(child, regno); 
133 ) 

134 return retval; 

135. |) 


也 就 是 说 ， 除 FS GS KRAE thread. struct 结构 中 外 ， 其 余 的 都 在 系统 空间 堆栈 的 pt_regs 结构 
中 。 注 意 ， 第 127 行 处 并 无 break HHH). PAL get_stack_long( ) 的 代码 也 在 同 -- 文 件 中 : 


[sys. ptrace( ) > getreg( ) > get_stack_long( )] 


41 /* 

42 * this routine will get a word off of the processes privileged stack. 
43 * the offset is how far from the base addr as stored in the TSS. . 
44 * this routine assumes that all the privileged stacks are in our 
45 * data space. 

46 */ 


47 static inline int get stack long (struct task struct *task, int offset) 
48 { 


49 unsigned char *stack; 

50 

51 stack = (unsigned char *)task-^thread. esp0; 
52 stack += offset; 

53 return (*((int *)stack)); 

54  ] 


读者 也 许 还 记得 ， 一 个 进程 的 thread, struct 结构 中 的 的 esp0 保存 着 其 系统 空间 堆栈 指针 。 当 进 称 
穿 过 中 断 门 、 陷 阱 门 或 调用 门 进入 系统 空间 时 ， 处 理 器 会 从 这 里 恢复 其 系统 空间 堆栈 。 

再 来 看 PTRACE_PEEKUSR 的 第 二 种 作用 ， 这 就 要 先 介绍 一 些 背 景 知识 了 。Intel 在 1386 系统 结构 
中 首创 性 地 引入 了 “调试 寄存 器 ”(debug registers)， 为 软件 的 开发 与 维护 提供 了 功能 很 强 而 卫 效 率 
很 高 的 调试 手段 。 用 户 进程 可 以 通过 设置 一 些 调试 寄存 器 来 使 处 理 器 在 …- 定 的 条 件 下 沙 入 “陷阱 ”从 
而 进入 一 个 “ 断 点 ”， 即 一 段 调试 程序 。 这 些 条 件 包括 : 中 当 处 理 器 执行 到 某 一 指令 时 ; @ 当 处 理 器 读 
某 一 内 存 地 址 时 ， 轩 从 处 理 器 写 某 …- 内 存 地址 时 。 而 “陷阱 ” 则 是 指 专门 用 于 虚 地 址 模式 程序 调试 的 1 
号 陷阱 debug ( 另 有 一 个 用 于 实地 址 模式 的 3 号 陷阱 nta, 在 Linux 中 仅 用 于 vm86 模式 )。 内 核 中 对 这 
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个 陷阱 的 处 理 程序 为 do_debug( )， 其 代码 在 traps.c 中 。 有 关 调试 寄存 器 的 详情 则 请 参阅 Intel 的 手册 或 


其 他 技术 资料 : 

488 /x 
489 * Our handling of the processor debug registers is non-trivial. . 
490 * We do not clear them on entry and exit from the kernel. Therefore 
491 * it is possible to get a watchpoint trap here from inside the kernel. 
492 * However, the code in ./ptrace.c has ensured that thé'user can 

493 * only set watchpoints on userspace addresses. Therefore the in-kernel 
494 * watchpoint trap can only occur in code which is reading/writing : 
495 * from user space. Such code must not hold kernel locks (since it 
496 * can equally take a page fault), therefore it is safe to call 

497 * force sig info even though that claims and releases locks. 

498 JE ES 2 

499 * Code in ./signal.c ensures that “thé debug control register 

500 * 1S restored before we deliver: ‘any signal, and therefore that 

501 * user code runs with the correct debug control register even though 
502 * we clear it here. 

503 * 

564 * Being careful here means that we don't have to be as careful in a 
505 * lok of more compliratéd places (task switching can be a bit lazy 
506 * about restoring au the debug state, and ptrace doesn't have to 
507 * find every occurrence of the TF bit that could be saved away even 
508 * by user code) 

509 */ 

510 asmlinkage hid do debug(struct pt regs * regs, long error code) 

511 { we 

512 uns#™Red int condition; 

513 strudK task struct *tsk = current; 

514 siginfo t info; 

515 | 

516 ..asm  . volatile  (movl %%db6, %0” : “=r” (condition)); 

517 . 

518, /* Mask out spurious debug traps due to lazy DR7 setting */ 


if (condition & (DR TRAPO|DR TRAPI|DR TRAP2|DR TRAP3)) 1 
if (!tsk-^thread. debugreg!7]) 
goto clear dr?; 


} 


if (regs—>eflags & VM MASK) 
goto debug vm86; 


/* Save debug status register where ptrace can see it */ 
tsk-^thread. debugreg[6] = condition: 


/* Mask out spurious TF errors due to lazy TF clearing */ 
if (condition & DR STEP) { 
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* The TF error should be masked out only if the current 

* process is not traced and if the TRAP flag has been set 

* previously by a tracing process (condition detected by 

* the PT DTRACE flag); remember that the i386 TRAP flag 

* can be modified by the process itself in user mode, 

* allowing programs to debug themselves without the ptrace( ) 
* interface. 


if ((tsk->ptrace & (PT DTRACE|PT PTRACED)) == PT DTRACE) 
goto clear TF; 


} 


/* Ok, finally something we can handle */ 
tsk-^thread. trap no = 1; 
tsk->thread. error code = error code; 
info.si signo = SIGTRAP; 

info.si errno = Q; 

info.si code = TRAP BRKPT; 


/* If this is a kernel mode trap, save the user PC on entry to 

* the kernel, that's what the debugger can make sense of. 

*/ 

info.si addr = ((regs—->xcs & 3) == 0) ? (void *)tsk-^thread. eip : 
(void *) regs—>eip; 

force sig info(SIGTRAP, &info, tsk); 


/* Disable additional traps. They'll be re-enabled when 
* the signal is delivered. 
*/ 

clear dr7: 
asm  ("mov]l %0, %%db7” 

; /* no output */ 

zs 10) ee 
return; 


debug_vm86: 
handle vm86 trap((struct kernel vm86 regs *) regs, error code, 1); 
return; 


clear TF: 
regs—>eflags &- "TF MASK; 
return; 


} 


RITEM HP ea. BÆRE AB SEAS, UU ES EEA e DE IRETE A IH 


一 个 SIGTRAP 信号 (JL 557 47), 并 且 通 过 siginfo 数据 结构 载 送 断 点 所 在 的 地 址 CX. 555 410. 2325, 
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引起 这 次 隐 阱 的 进程 要 事先 为 处 理 这 个 信号 作 好 准备 《和 否则 进程 就 会 “流产 ”)。 这 也 是 为 什么 在 编译 
供 调试 的 程序 时 要 使 用 “-g” 选 择 项 的 原因 之 一 。 
回 到 PTRACE PEEKUSR 的 代码 中 。 这 里 的 局 部 明 dummy 是 个 user 结构 指针 ， 其 值 在 开头 时 初 
始 化 成 NULL。 第 232 和 233 行 是 对 addr 的 范围 进行 检查 。 也 就 是 ， 假 定 一 个 user 结构 是 从 地 址 0 开 
始 的 ， 看 addr 的 值 是 省 对 应 村 该 结构 中 u_debugreg[ ] 数 组 的 偏 移 量 。 数据 结构 struct user 是 在 进程 “ 流 
产 ”(abort) Hei (dump) 内 存 映 象 时 使 用 的 ， 定 义 于 include/asm-i386/userh 中 ， 


88 / When the kernel dumps core, it starts by dumping the user struct — 


89 this will be used by gdb to figure out where the data and stack segments 
90 are within the file, and what virtual addresses to use. */ 

91 struct user { 

92 /* We start with the registers, to mimic the way that “memory” is returned 
93 from the ptrace(3,...) function. */ 

94 struct user_regs struct regs; /* Where the registers are actually stored */ 
95 /* ptrace does not yet supply these.  Someday.... */ 

96 int u fpvalid; /* True if math co-processor being used. */ 
97 /* for this mess. Not yet used. */ 

98 struct user 1387 struct i387; /* Math Co-processor registers. */ 

99 /* The rest of this junk is to help gdb figure out what goes where */ 

100 unsigned long int u tsize; /* Text segment size (pages). */ 

101 unsigned long int u dsize; /* Data segment size (pages). */ 

102 unsigned long int u ssize; /* Stack segment size (pages). */ 

103 unsigned long start code; /* Starting virtual address of text. */ 

104 unsigned long start stack; /* Starting virtual address of stack area. 
105 This is actually the bottom of the stack, 
106 the top of the stack is always found in the 
[07 esp register. */ 

108 long int signal; /* Signal that caused the core dump. */ 

109 int reserved; /* No longer used */ 

110 struct user pt regs * u ar0; /* Used by gdb to help find the values for */ 
111 /* the registers, */ 

112 struct user 1387 struct* u fpstate; /* Math Co-processor pointer. */ 
113 unsigned long magic; /* To uniquely identify a core file */ 

114 char u comm[32] ; /* User command that was responsible */ 

115 int u_debugreg!8] -; 

116 }; 


不 过 ， 这 个 数据 结构 在 这 里 只 是 用 来 检查 参数 addr 的 范围 ， 而 具体 调试 帘 存 器 的 映 象 则 在 子 进程 
的 thread. struct 结构 中 (AL 236 行 )。 
PTRACE_POKETEXT 种 PTRACE POKEDATA 是 前 面 两 个 操作 的 逆向 操作 ， 代 码 很 简单 
(ptrace.c ). 


[sys_ptrace( )] 


242 /* when I and D space are separate, this will have to be fixed. */ 
243 case PTRACE POKETEXT: /* write the word at location addr. */ 
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244 case PTRACE_POKEDATA: 

245 ret = 0; 

246 if (access process vm(child, addr, &data, sizeof (data), 1) ==sizeof (data)) 
247 break; 

248 ret = -EIO; 

249 break: 

200 


PTRACE_POKEUSR 则 稍微 要 复杂 -点 : 


[sys ptrace( )] 


251 case PTRACE POKEUSR: /* write the word at location addr in the USER area */ 


252 ret = -EIO; 

253 if ((addr & 3) || addr < 0 || 

254 addr > sizeof(struct user) - 3) 

259 break; 

256 

257 if (addr < 17*sizeof(long)) | 

258 ret = putreg(child, addr, data); 

259 break; 

260 } 

261 /* We need to be very careful here. We implicitly 

262 want to modify a portion of the task_struct, and we 
263 have to be selective about what, portions we allow someone 
264 to modify. */ l 

265 

266 ret = -EIO; 

267 if (addr >= (long) &dummy->u_debugregL0] && 

268 addr <= (long) &dummy->u_debugreg[7]) | 

269 

270 if(addr == (long) &dummy-^u debugreg[4]) break; 
271 if (addr == (long) &dummy->u_debugreg[5]) break; 
272 if(addr < (long) &dummy->u_debugreg[4] && 

273 ((unsigned long) data) >= TASK SIZE-3) break; 
274 

275 if(addr == (long) &dummy—^u debugreg[7]) { 

276 data &= “DR CONTROL RESERVED; 

277 for (i=0; i<4; i++) 

278 if ((0x5f54 >> ((data >> (16 + 4xi)) & Oxf)) & 1) 
279 goto out_tsk; 
280 

281 

282 addr -= (long) &dummy—>u_debugreg: 

283 addr = addr >> 2; 

284 child->thread. debugreg[addr] = data; 

285 ret = 0; 
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} 


break: 


这 里 的 特别 之 处 仅 在 于 对 参数 addr 和 data 的 检查 。 首 先 ， 调 试 寄存 器 0 至 3 这 四 个 寄存 器 是 允许 
没 置 的 ， 但 是 要 检查 所 设置 的 值 data (实际 上 是 个 内 存 地 址 ) 是 否 越 出 了 用 户 空 间 的 范围 。 除 此 之 外 ， 


调度 寄存 器 7 是 允许 设置 的 ， 但 是 对 其 数值 有 些 特殊 的 要 求 。 
操作 PTRACE SYSCALL 和 PTRACE CONT 为 一 组 ， 分 别 用 来 使 被 跟踪 的 子 进程 在 下 - 次 系统 
时 暂停 或 继续 : 


[sys_ptrace( }] 


289 
290 
291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 
308 


用 的 


我 们 


195 
196 
197 
198 


case PTRACE SYSCALL: /* continue and stop at next (return from) syscall */ 


case PTRACE CONT: { /* restart after signal. */ 
long tmp; 


ret = -EIO; 

if ((unsigned long) data > NSIG) 
break; 

if (request == PTRACE SYSCALL) 
child->ptrace |= PT TRACESYS; 

else 
child->ptrace &- "PT TRACESYS; 

child-^exit code = data; 

/* make sure the single step bit is not set. */ 


tmp = get stack long(child, EFL OFFSET) & "TRAP FLAG; 
put stack long(child, EFL OFFSET, tmp); 

wake up process(chiid); 

ret = 0; 

break; 


使 子 进程 在 下 一 次 进入 系统 调用 时 暂停 与 使 子 进 种 在 执行 下 一 条 指令 后 暂停 

(PTRACE_SINGLESTEP) 是 互 太 的。 所 以 ， 要 将 子 进 程 的 标志 寄存 器 映 象 中 的 TRAP_FLAG 标志 清 
0 (302—303 行 )。 读 者 在 前 面 已 看 到 过 get_stack_long( ) 的 代码 ， 而 put_stack_long( ) 即 为 其 逆向 操作 。 
使 被 跟踪 进程 在 下 一 次 进入 系统 调用 时 暂停 是 道 过 其 task_struct 结构 中 的 PF_TRACESYS 标志 位 起 作 


Í 


在 第 3 章 讲述 系统 调用 过 程 时 我 们 有 意 忽略 了 标 V 志 位 PF_ TRACESYS 的 作用 ， 现 在 把 它 补 上 ， 让 


来 看 看 文件 arch/i386/kernje/entry.S 中 的 几 个 片断 : 
ENTRY (system call) 
pushl %eax # save orig eax 
SAVE ALL 


GET CURRENT (%ebx) 
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J99 cmpl $(NR syscalls), %eax 


- 200 jae badsys 

201 testb $0x02, tsk ptrace (%ebx) # PT TRACESYS 
202 jne tracesys 

203 call *SYMBOL_NAME(sys_call table) (, %eax, 4) 


244 tracesys: 


245 movl $-ENOSYS, EAX (esp) 

246 call SYMBOL NAME(syscall trace) 

247 movl ORIG EAX(*esp), %eax 

248 cmpl $(NR syscalls), %eax 

249 jae tracesys exit 

250 call *SYMBOL NAME(sys call table) (, %eax, 4) 

251 movl %eax, EAX (esp) H save the return value 
202 tracesys exit: 

253 call SYMBOL NAME(syscall trace) 

254 jmp ret from sys call 


在 跳 转 到 各 个 系统 调用 的 处 理 程序 之 前 ， 先 要 检查 当前 进程 的 PF TRACESYS 标志 ， 如 果 为 1 就 
转移 到 tracesys。 转 到 tracesys 以 后 , 首先 就 是 调用 syscall trace( ), 其 代码 又 回 到 arch/i386/kernel/ptrace.c 
中 : 


[system call ( ) > syscall trace( )] 


465 asmlinkage void syscall trace (void) 


466 { . 

467 if ((current->ptrace & (PT_PTRACED|PT TRACESYS)) != 

468 (PT PTRACED|PT TRACESYS)) 

469 return; 

470 current-^exit code = SIGTRAP; 

471 current->state = TASK STOPPED; 

472 notify parent (current, SIGCHLD) ; 

473 schedule( ) ; 

474 /* 

415 * this isn t the same as continuing with a signal, but it will do 
476 * for normal use. strace only continues with a signal if the 
477 * stopping signal is not SIGTRAP.  -brl 

478 */ 

479 if (current-»exit code) | 

480 send sig(current- exit code, current, 1); 

481 current-»exit code = 0; 

482 } 

483} 


在 这 里 ， 通 过 notify_parent( )， 向 父 进程 发 送 一 个 SIGCHLD 信和 号， 读者 已 经 在 第 4 章 中 见 到 过 
notify. parent( ) 的 代码 。 然 后 就 调用 schedule ) 进 入 暂停 状态 TASK_STOPPED。 当 然 ， 其 父 进程 必定 已 
经 设置 好 对 SIGCHLD 信号 的 反应 。 当 父 进程 设置 了 子 进 程 的 PF_TRACESS 标志 位 ， 然 后 又 接收 到 了 
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进程 发 送 过 来 的 SIGCHLD 信和 号 时 ， 就 知道 子 进程 已 经 在 系统 调用 的 入 口 处 陷入 了 暂 售 状态， 这 8 
EFEM n] Let PTRACE_PEEKUSR 等 操作 来 收集 或 改变 有 关 的 数据 (如 调用 参数 )。 然 后 ， 可 以 
通过 向 子 进程 发 送 一 个 SIGCONT 信号 让 它 继续 运行 ， 也 就 是 让 它 从 sysycall trace( ) 中 的 schedule( ) 返 
Hl, EIB) entry.S 中 的 tracesys 处 通过 跳 转 表 进 入 具体 系统 调用 的 代位 (250 行 )。 父 进程 还 可 以 通 
过 PTRACE. POKEUSR 等 操作 将 子 进 程 的 ORIG_EAX 设置 成 -个 大 十 NT_syscalls 的 位 ， 使 子 进程 跳 
过 对 系统 调用 本 身 的 执行 ( 见 249 行 )。 最 后 ， 子 进程 在 执行 完 系统 调 用 本 身 以 后 ， 在 tracesys_exit 处 
还 要 再 调用 “次 syscall_trace( )， 让 父 进 程 有 个 机 会 来 收集 子 进 程 在 执行 完 系统 调用 后 的 结果 (如 返回 
值 或 出 错 代 码 )。 这 样 ， 父 进 程 环 可 以 监视 子 进程 的 所 有 系统 调用 ， 甚 至 还 能 向 子 进程 “伪造 ”对 系统 
调用 的 执行 ， 把 子 进程 的 系统 调用 “ 重 定向 ” 到 父 进程 的 用 户 空 间 程序 中 。 

回 到 ptrace.c PSI sys_ptrace() 的 代码 继续 往 下 看 ， F 面 比较 简单 一些 了 ， 









[sys ptrace( )] 


309 /* 

310 * make the child exit. Best I can do is send it a sigkill. 
3ll * perhaps it should be put in the status that ii wants Lo 
312 * exit. 

313 */ 

314 case PTRACE KILL: { 

315 long tmp: 

316 

317 ret = 0; 

318 if (child->state == TASK_ZOMBIE) /* already dead */ 
319 break; 

320 child~>exit. code = SIGKILL:; 

32] /* make sure the single step bit is not set. */ 

322 tmp = get stack long(child, EFL OFFSET) & "TRAP FLAG: 
323 put stack long(child, EFL OFFSET, tmp): 

324 wake up. process (child); 

325 break; 

326 ] 


PTRACE_KILL 操作 使 子 进 程 退 出 运行 。 除 PTRACE ATTACH 以 外 ， 其 他 的 操作 一 般 都 要 求 目标 
进程 处 于 暂停 状态 (只 有 这 样 ， 目标 进程 的 内 存 和 寄存 器 映 象 才 是 静态 的 )， 只 有 PTRACE KILL gem 
例外 ( 见 前 面 的 200—201 行 所 作 的 检查 )。 函 数 wake up. process ) 将 月 标 进程 的 状态 改 成 
TASK_RUNING， 而 不 问 其 原来 是 什么 状态 。 如 果子 进程 处 十 PF_TRACESYS 状态 ， jJ 73 ERE 上 一- 
次 进行 系统 调用 而 在 内 核 中 进入 syscall_trace( ) 以 后 ， 会 加 其 自身 发 送 一 个 SIGKILL FE OW, ET 
479—481 行 )。 继 续 往 下 看 ; 


[sys_ptrace( )] 


328 case PIRACE SINGLESTEP: { /* set the trap flag. */ 
329 long tmp; 
330 
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331 ret = -EIO; 

332 if ((unsigned long) data > _NSIG) 

333 break; 

334 child->ptrace &- "PT TRACESYS; 

335 if ((child->ptrace & PT DTRACE) == 0) { 

336 /* Spurious delayed TF traps may occur */ 
337 child->ptrace |= PT DTRACE; 

338 } 

339 tmp = get stack long(child, EFL OFFSET) | TRAP FLAG; 
340 put stack long(child, EFL OFFSET, tmp); 

341 child—>exit code = data; 

342 /* give it a chance to run. */ 

343 wake up process (child) ; 

344 ret = 0; 

345 break; 

346 ) 

347 


除 道 过 前 述 的 调试 寄存 器 可 以 让 寄存 器 在 特定 的 条 件 下 进入 1 号 陷阱 debug Sb, 1386 CPU 还 提供 
了 单 步 执行 的 手段 。 只 要 在 处 理 器 的 标志 寄存 器 中 将 TRAP. FLAG 标志 位 设 成 1， 处 理 器 就 会 在 每 执 
行 完 -- 条 机 器 指令 以 后 就 进入 debug 陷阱 而 到 达 一 个 断 点 。 这 样 ， 跟 踪 进 程 就 可 以 像 对 待 子 进程 的 系 
统 调用 一 样 ， 在 子 进程 每 执行 完 一 条 指令 后 就 来 观察 执行 的 结果 。 不 过 ， 对 指令 的 跟踪 与 对 系统 调用 
的 跟踪 是 五 斥 的 ， 所 以 要 将 子 进程 的 PF_TRACESYS 标志 清 0。 注 意 PF TRACESYS 标志 与 
TRAP FLAG 是 两 码 事 。 前 者 是 … 个 软件 标志 ， 是 进程 的 task struct 结构 内 部 flags 中 的 一 位 ， 这 完全 
是 供 软 件 使 用 的 ， 而 与 处 理 吴 的 硬件 没有 直接 的 联系 。 相 比 之 下 ，TRAP_FLAGS 是 个 硬件 标志 ， 它 是 
处 理 回 中 的 “标志 寄存 器 ”EFL 的 一 位 ， 真 接 影响 着 处 理 器 的 行为 。 每 当 调 度 一 个 进程 进入 运行 时 ， 
就 会 在 返回 用 户 空间 前 夕 将 其 标志 寄存 器 映 象 装 入 CPU 的 标志 寄存 器 EFL. 所 以 可 以 实现 对 该 进程 的 
单 步 跟踪 ， 而 并 不 影响 其 他 进程 或 者 在 系统 空间 的 运行 。 但 是 ， 直 接 用 TRAP_FLAG 标志 位 来 代表 
ptrace ) 机 制 的 单 步 跟踪 状态 是 不 可 靠 的 。 这 是 因为 应 用 软件 也 可 以 改变 处 理 器 的 标志 寄存 器 ， 从 而 千 
成 混淆 。 所 以 ，ptrace( ) 同 时 还 定义 了 一 个 用 于 单 步 执行 的 软件 标志 PT_DTRACE， 在 通过 ptrace( ) 的 
PTRACE. SINGLESTEP 来 开始 单 步 跟踪 时 就 将 这 个 软件 标志 也 设 成 1。 其 余 的 操作 就 比较 和 集 单 了 。 结 
合 前 面 一 些 操作 的 代码 ， 读 者 自行 阅读 应 该 不 会 有 困难 (ptrace.c)。 


[sys_ptrace( )] 


348 case PTRACE DETACH: { /* detach a process that was attached. */ 
349 long tmp; 

300 

301 ret ~ -EIO; 

352 if ((unsigned long) data > _NSTG) 

353 break; 

354 child ptrace &- "(PT PTRACED|PT. TRACESYS) : 

355 child-»exit code = data; 

356 write lock irq(&tasklist lock) ; 

357 REMOVE LINKS (child) ; 
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child->p_pptr = child->p opptr; 

SET_LINKS (child) ; 

write unlock irq(&tasklist lock); 

/* make sure the single step bit is not set. */ 

tmp - get stack long(child, EFL OFFSET) & ^TRAP FLAG: 
put stack long(child, EFL OFFSET, tmp); 

wake up process (child): 

ret = 0: 

break; 


case PTRACE GETREGS: { /* Get all gp regs from the child. */ 

if (laccess ok(VERIFY WRITE, (unsigned *)data, 1?*sizeof(long))) { 
ret = -EIO; 
break; 

} 

for (i = 0; i < 17*sizeof (long): i += sizeof (long) ) { 
—.put user(getreg(child, i), (unsigned long *) data); 
data += sizeof (long); 

) 

ret = 0; 

break; 


case PTRACE SETREGS: { /* Set all gp regs in the child. */ 

unsigned long tmp; 

if (laecess ok(VERIFY READ, (unsigned *)data, l7*sizeof (long))) { 
ret = -EIO; 
break; 

} 

for (i = 0; i < IT*sizeof(long); i += sizeof (long) ) { 
__get_user(tmp, (unsigned long *) data); 
putreg(child, i, tmp); 
data += sizeof (long) ; 

} 

ret = 0; 

break; 


case PTRACE GETFPREGS: 1 /* Get the child FPU state. */ 
if (laccess ok(VERIFY WRITE, (unsigned *)data, 
 sizeof(struct user i387 struct))) | 


ret = —EI0; 
break; 

) 

ret = 0; 


if ( ! child-^usedrmath ) { 
/* Simulatélin empty FPU. */ 
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406 set fpu cwd(child, 0x037f) ; 

407 set fpu swd(child, 0x0000); 

408 set fpu twd(child, Oxffff); 

409 ) 

410 get fpregs((struct user 1387 struct *)data, child); 
411 break; 

412 } 

413 

414 case PTRACE SETFPREGS: | /* Set the child FPU state. */ 
415 if (laccess ok(VERIFY READ, (unsigned *)data, 

416 sizeof (struct user 1387 struct))) | 

417 ret = —EIQ; 

418 break; 

419 } 

420 child->used math = 1; 

42] set fpregs(child, (struct user i387 struct ¥*) data) ; 
422 ret = 0; 

423 break ; 

424 } 

425 

426 case PTRACE GETFPXREGS: | /* Get the child extended FPU state. */ 
427 if (access ok (VERIFY WRITE, (unsigned *) data, 

428 sizeof (struct user_fxsr_struct))) | 

429 ret = —EIO; 

430 break; 

431 } 

432 if ( tchild->used_math ) { 

433 /* Simulate an empty FPU. */ 

434 set fpu cwd(child, 0x037f); 

435 set fpu swd(child, 0x0000) ; 

436 set fpu twd(child, Oxffff); 

431 set fpu mxcsr(child, Ox1f80); 

438 } 

439 ret = get fpxregs((struct user fxsr struct *)data, child); 
440 break; 

441 } 

442 

443 case PTRACE SETFPXREGS: { /* Set the child extended FPU state. */ 
444 if (!laccess ok(VERIFY READ, (unsigned *)data, 

445 sizeof(struct user fxsr struct))) { 

446 ret = -EIO; 

447 break; 

448 ) 

449 child-^used math = 1; 

450 ret = set fpxregs(child, (struct user fxsr struct *)data); 
451 break; 

452 } 

453 
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454 default: 

455 ret = -EIO; 

456 break; 

457 } 

458 out_tsk: 

459 free task struct (child); 
460 out: 

461 unlock kernel ( ); 

462 return ret; 

463 } 


如 前 所 述 , ptrace( ) 在 实际 运用 中 并 不 是 用 作 进程 间 遂 讯 的 手段 ， 而 是 作为 程序 调试 和 维护 的 手段 。 
作为 调试 手段 ， 其 各 方面 的 作用 在 早期 的 Unix 系统 中 是 无 可 替代 的 。 不 过 ， BÉ Unix (以 及 Linux) 
的 发 展 ， 出 现 了 /proc 上 月 录 下 的 特殊 文件 〔 见 “文件 系统 ”一 章 中 的 有 关内 容 )， 使 用 户 可 以 通过 这 些 
特殊 文件 来 读 / 写 一 个 进程 的 内 存 空间 和 其 他 信息 ， 而 且 往 往 更 为 方便 ， 形 式 上 也 更 为 划一 。 所 以 ， 近 
年 来 像 gdb 一 类 的 调试 工具 已 经 倾向 于 更 多 地 使 用 这 些 特殊 文件 严格 说 来 这 些 特殊 文件 当然 也 可 用 
于 过 程 问 通讯 ， 只 不 过 人 们 已 经 有 了 更 好 的 进程 间 通讯 手段 ， 因 而 不 会 这 样 去 用 而 已 )。 但 是 ， 尽 管 如 
Bis Iproc 特殊 文件 还 是 不 能 完全 取代 ptrace( ) 的 作用 。 例 如 ，ptrace( ) 有 个 于 可 替代 的 作用 ， 堵 就 是 可 
以 通过 跟踪 应 用 程序 所 作 的 系统 调用 来 监视 其 这 行 。 我 们 知道 ，Linux 内 核 的 源 代码 是 公开 的 ， 可 是 应 
用 程序 的 源 代码 却 “ 般 都 不 公开 。 拿 到 - .个 应 用 程序 以 后 ， WOR ASE UE ARE A, Eh 
办 法 就 是 监视 它 都 作 了 些 什么 系统 调用 ， 调 用 时 的 参数 都 是 些 什么 ， 返 回 值 又 是 什么 。 这 时 就 要 用 到 
ptrace( ) 了 。 为 了 这 个 日 的 ，Linux 专门 提供 了 一 个 士 具 ， 即 shell 实用 程序 strace. 读者 不 妨 先 体验 - - 
下 strace 的 使 用 ， 然 后 ， 想 想 它 是 怎样 实现 的 ? 


% strace echo hello 


66 报 文 传递 


从 本 节 开 始 ,我 们 用 三 节 的 篇 幅 集 中 介绍 Linux 内 核对 Unix 系统 V 进程 闻 通 信 机 制 的 继承 和 实现 。 
TH Unix 系统 的 进程 问 通 信 APO 机 制 主要 有 两 种 ， 就 是 管道 和 信号 。 后 来 ， 针 对 普通 管道 只 
能 在 “近亲 ”进程 之 间 建 立 的 缺点 ， 又 有 了 命名 管道 。 但 是 ， 对 于 一 个 现代 的 操作 系统 以 及 日 益 发 展 
的 各 种 应 用 来 说 ， 这 些 机 制 虽然 很 重要 ， 但 也 确实 存在 明显 的 不 是 。 首 先 ， 信 号 所 能 载 送 的 信息 量 和 
小 ， 单 独 使 用 时 不 适合 信息 量 要 求 比较 大 的 场合 。 痢 管道 ， 即 使 十 命 名 管道 ， 虽 然 可 用 于 信息 量 较 大 
的 场合 ， 但 是 对 于 不 同 的 应 用 而 言 还 是 有 许多 缺点 ， 主 要 有 ; 
© 上 所 载 送 的 信息 是 无 格式 的 字 节 流 。 设 想 如 果 一 个 进程 要 发 送 两 段 文字 给 另 一 个 进程 ， 每 段 文 
宁 部 是 一 个 小 小 的 字符 文件 ， 那 么 对 接收 方 进程 而 言 ， 这 两 段 文字 连 成 了 一 片 ， 怎 样 知道 这 
两 段 文字 的 分 界 在 哪儿 呢 ? 一 个 管道 (命名 的 或 者 无 名 的 ) 就 好 像 是 一 条 通信 线路 ， 在 这 条 
通信 线路 上 时 有 一 些 起 码 的 、 低 层 的 “通信 规程 ” 例如 报 文 的 划分 ， 才 能 满足 较 高 层 规 程 的 
要 求 。 从 这 个 角度 来 说 ， 无 格式 字 节 流失 是 一 种 最 原始 的 通信 手段 。 
e 由 十 所 载 送 的 是 无 格式 字 节 流 ， 就 缺乏 -- 些 控制 手段 ， 如 报 文 的 优先 级 别 等 。 
e. 管道 机 制 的 缓冲 区 大 小 是 有 限 的、 静态 的 。 当 发 送 者 写 满 了 缓冲 区 而 接收 者 没有 来 得 及 从 绥 
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冲 区 读 走 ， 发 送 者 就 只 好 停 下 来 睡眠 ， 这 就 强化 了 管道 机 制 的 同步 性 要 求 。 虽然 这 种 同步 性 
往往 本 来 就 是 应 用 程序 所 需要 的 ， 但 在 某 些 应 用 中 、 某 些 场合 下 却 成 为 一 个 缺陷 。 回 然 ， 可 
以 通过 使 用 O_NONBLOCK 标志 让 发 送 任 在 缓冲 区 一 满 就 返回 〈 而 不 至 于 进入 睡 虐 )， 但 那样 
会 增加 应 用 程序 的 复杂 性 ， 还 会 进一步 降低 效率 。 再 说 ， 在 管道 机 制 中 也 大 法 让 发 送 者 预先 
知道 缓冲 区 中 还 有 多 少 可 写 空间 。 
e 从 运行 效率 看 ， 管 道 机 制 的 开销 也 不 小 ， 尤 其 是 当 发 送 的 信息 量 比较 小 时 ， 平 均 每 个 字 节 所 
耗费 的 代价 就 相当 高 了 。 
e 每 个 管道 都 要 占用 一 个 打开 文件 号 ， 一 般 的 应 用 中 这 还 不 全 于 成 为 问题 ， 但 在 某 些 特殊 的 应 
用 中 是 有 可 能 会 成 为 问题 的 。 | 
上 列 的 多 数 缺 陷 都 可 以 在 应 用 软件 中 采取 一 些 措施 加 以 克服 或 减轻 ， 但 是 那样 只 会 使 应 用 软件 更 
复杂 、 效 率 更 低 。 而 操作 系统 的 作用 和 日 的 本 来 就 在 于 使 应 用 软件 更 简单 、 BRE, PAM. XIF, 
针对 各 种 应 用 的 要 求 ， 就 提出 了 改进 早期 Unix IPC 机 制 的 任务 。 男 . : 访 面 ， 当时 在 操作 系统 以 及 一 些 
有 关 领 域 的 理论 研究 也 有 了 较 大 的 发 展 而 且 日 趋 成 熟 , 概括 出 了 对 IPC 的 几 种 抽象 ,包括 报 文 (message) 
传道、 共享 内 存 以 及 进程 同步 。 其 中 进程 同步 又 包括 了 信和 号 量 Csemaphore), HE (mutex) 以 及 “By 
A” (rendezvous) 等 形式 。 在 这 样 的 历史 条 件 下 ，AT&T 在 其 Unix 系统 V 版 本 中 增加 了 报 文 传递 、 共 
享 内 存 以 及 信号 量 三 种 IPC 机 制 。 这 三 种 机 制 合 在 一 起 统称 为 “系统 V 进程 间 通 信 机 制 ”。 与 此 同时 ， 
BSD 也 在 早期 Unix IPC 机 制 的 基础 上 作 了 扩充 , 形成 了 基于 socket 的 IPC 机 制 , 使 得 IPC 成 为 系统 V 
与 BSD 版 本 之 间 的 主要 区 别 之 一 。 而 Linux 则 兼容 并 包 ， 把 两 者 都 继承 了 下 来 。 我 们 将 在 下 一 章 再 介 
绍 BSD 所 扩充 的 IPC 机 制 ， 而 本 节 以 及 后 面 两 节 则 集中 于 ATAT 的 系统 V IPC 机 制 在 Linux 内 核 中 
的 具体 实现 。 
Linux 内 核 为 系统 V IPC 提供 了 - -个 统一 的 系统 调用 ipc( )， 也 许 应 称 为 sysv_ipc( )。 其 应 用 程序 
设计 界面 CAPD Ñ: 


int ipe(unsigned int call, int first, int second, int third, void *ptr, int firth); 


其 中 第 一 个 参数 call 为 具体 的 操作 码 ， 定 义 于 include/asm-i386/ipc.h P: 


14 #define SEMOP 1 
15 #define SEMGET 2 
16 Hdefine SEMCTL 3 
17 #define MSGSND 11 
18 define MSGRCV 12 
19 Hdefine MSGGET 13 
20 #define MSGCTL 14 
21 #define SHMAT 21 
22 &define SHMDT 22 
24 #define SHMGET 23 
24 #def ine SHMCTL 24 


操作 人 码 中 凡 由 “SEM” 开 头 的 都 是 为 信号 量 而 设 ， 由 “MSG” 开 头 的 都 是 为 报 文 传递 而 设 ， 而 由 
“SHM” 开 头 的 则 都 是 为 共享 内 存 区 而 设 。 其 余 参 数 的 使 用 则 因 具 体操 作 的 不 同 而 异 。 不 过 ， 为 便于 
使 用 ， 在 C 语言 函 数 库 中 分 别提 供 了 如 semget( )、msgget( )、msgsnd( ) 等 等 库 函 数 ， 这 些 库 函 数 把 用 
户 程 序 对 它们 的 调用 转换 成 统一 的 系统 调用 ipc( )， 却 使 用 户 感到 好 像 内 核 提供 了 这 人 么 一 些 不 同 的 系统 
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调用 一 样 。 
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内 核 中 的 入 口 为 sys_ipc( )， 其 代码 在 arch/i386/kernel/sys_i386.c P: 


/* 

* sys ipc( ) is the de-multiplexer for the SysV IPC calls.. 
* 

* This is really horribly ugly. 

*/ 
asmlinkage int sys ipc (uint call, int first, int second, 

int third, void *ptr, long fifth) 
( 


int version, ret; 


version = call >> 16; /* hack for backward compatibility */ 


call &- Oxffff; 


switch (call) { 
case SEMOP: 


return sys semop (first, (struct sembuf *)ptr, second); 


case SEMGET: 
return sys semget (first, second, third); 
case SEMCTL: { 
union semun fourth; 
if (!ptr) 
return —EINVAL; 
if (get user(fourth. pad, (void **) ptr)) 
return -EFAULT; 
return sys semctl (first, second, third, fourth); 


case MSGSND: 
return sys msgsnd (first, (struct msgbuf *) ptr, 
second, third); 
case MSGRCV: 
switch (version) { 
case 0: { 
struct ipc kludge tmp; 
if (!ptr) 
return -EINVAL; 


if (copy. from user (&tmp, 
(struct ipc kludge *) ptr, 
sizeof (tmp))) 
return -EFAULT; 
return sys msgrcv (first, tmp.msgp, second, 
tmp.msgtyp, third); 
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171 default: 

172 return sys msgrcv (first, 

173 (struct msgbuf *) ptr, 

174 second, fifth, third); 

175 } 

176 case MSGGET: 

177 return sys msgget ((key t) first, second); 
178 case MSGCTL: 

179 return sys msgctl (first, second, (struct msgid ds *) ptr); 
180 

181 case SHMAT: 

182 switch (version) | 

183 default: { 

184 ulong raddr; 

185 ret - sys shmat (first, (char *) ptr, second, &raddr); 
186 if (ret) 

187 return ret; 

188 return put user (raddr, (ulong *) third); 
189 } 

190 case 1: /* iBCS2 emulator entry point */ 

191 if (!segment eq(get fs( ), get ds( ))) 
192 return -EINVAL; 

192 return sys shmat (first, (char *) ptr, second, (ulong *) third); 
194 } 

195 case SHMDT: 

196 return sys shmdt ((char *) ptr); 

197 case SHMGET: 

198 return sys shmget (first, second, third); 

199 case SHMCTL: 

200 return sys shmctl (first, second, 

201 (struct shmid ds *) ptr); 

202 default: 

203 return -EINVAL; 

204 } 

205 } 


函数 sys ipc 的 结构 很 简单 : 根据 调用 参数 操作 码 的 不 同 ， 分 别处 理 二 种 进程 问 通信 机 制 的 1138 
不 同 的 操作 。 我 们 分 三 节 介 绍 相关 的 源 代码 ， 本 节 先 介绍 报 文 传递 。 

每 一 个 进程 都 可 以 通过 库 抄 数 调用 msgget( ) ( 即 通过 操作 码 为 MSGGET 的 ipc( ) 系 统 调用 ， 下 同 ) 
建立 报 文 队 列 。 有 的 系统 中 把 这 样 的 队列 称 为 “信箱 ”(mail box)。 报 文 队列 不 是 通过 文件 名 ， 而 是 通 
过 一 个 “ 键 值 ”(key) 加 以 标识 的 。 一 旦 建立 以 后 ， 其 他 进程 就 可 以 使 用 相同 的 键 值 通 过 msgget( ) 取 
得 对 已 建立 报 文 队 列 的 访问 途径 。 然 后 ， 发 送 报 文 的 进程 就 可 以 通过 msgsnd( ) 发 送 报 文 到 指定 的 队列 
中 ， 而 接收 进程 则 可 以 通过 msgrev( ) 从 指定 的 队列 中 接收 报 文 。 从 概念 上 说 ， 这 类 似 于 命名 售 道 ， 但 
报 文 队列 所 传递 的 不 再 是 完全 巨 结构 的 字 节 流 了 ， 每 个 报 文 都 有 一 定 的 低层 结构 而 互相 区 分 。 此 外 ， 
还 可 以 通过 msgetl( ) 调 用 对 指定 的 报 文 队列 进行 一 些 控 制 ( 包 括 撤消 该 队列 )。 由 于 报 文 队 列 并 个 纳入 
文件 系统 的 范畴 , 所 以 并 不 占用 打开 文件 号 。 内核 中 实现 氢 文 传递 机 制 的 代码 基本 上 都 在 文件 ipc/msg.c 
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6.6.1 ÆRA msgget( ) 一 一 创建 报 文 队 列 


先 来 看 报 文 队列 的 建立 和 取得 (msg.c ); 
[sys. ipc( ) > sys msgget( )] 


303 asmlinkage long sys msgget (key t key, int msgflg) 


304 { 

305 int id, ret = -RPERM: 

306 struct msg queue *msq; 

307 

308 down(&msg ids.sem); 

309 if (key == IPC PRIVATE) 

310 ret = newque (key, msgflg): 

311 else if ((id = ipc findkey(&msg ids, key)) == -1) { /* key not used */ 
312 if (!(msgflg & IPC CREAT)) 

313 ret = -ENOENT. 

314 else 

315 ret = newque (key, msgflg); 

316 | else if (msgflg & IPC CREAT && msgflg & IPC EXCL) { 
317 ret = -EEXIST; 

318 } else { 

319 msq = msg lock (id); 

320 if (msq==NULL) 

321 BUG( ) ; 

322 if (ipcperms (&msq->q_perm，msgflg)) 

323 ret = —EACCES; 

324 else 

325 ret = msg buildid(id, msq->q_perm. seq) ; 
326 msg unlock(id); 

327 ) 

328 up(&msg ids. sem): 

329 return ret; 

3300  ] 


操作 码 MSGGET， 从 而 是 sys msgget( ) 可 用 于 两 个 不 同 的 目的 ， 一 是 用 一 个 给 定 的 键 值 创建 一 个 
报 文 队列 ， 二 是 给 定 - ' 个 键 值 ， 找 到 已 经 建立 的 报 文 队列 。 当 调用 参数 msgflg 中 的 IPC_CREATE 标志 
为 1 时 表示 创建 ,为 0 时 则 为 寻找 , 二 者 均 返 回报 文 队列 的 标识 号 。 内 核 中 有 个 全 局 的 数据 结构 msg. ids, 
专门 用 来 管理 报 文 队列 (msg.c). 


92 Static struct ipc ids msg ids; 
其 中 类 型 ipc_ids 在 ipc/util.h 中 定义 : 
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15 struct ipc ids | 


16 int size; 

17 int in use; 

18 int max id; 

19 unsigned short seq; 

20 unsigned short seq max; 
21 struct semaphore sem; 
22 spinlock_t ary; 

23 struct ipc id* entries; 
24. 5 


结构 中 的 指针 entries 指向 一 个 结构 数组 ， 其 类 型 定义 为 tilh): 


26 struct ipc id | 
21 struct kern ipc perm* p; 
28 Fi 


数组 中 的 元 素 都 是 指向 kern_ipc_perm 数据 结构 的 指针 ， 而 kern ipc perm. 数据 结构 则 是 在 
include/linux/ipc.h 中 定义 的 : 


56 /* used by in-kernel data structures */ 
57 struct kern_ipc_perm 


58 | 

59 key t key; 

60 uid t uid; 

61 gid t gid; 

62 uid t cuid; 

63 gid t cgid; 

64 mode t mode; 

65 unsigned long seq; 
66 kh 


数据 结构 msg ids 是 全 局 的 ， 显 然 必 须 置 于 内 核 中 “信号 量 ” 机 制 ( 见 第 4 SO. 的 保护 之 下 。 

键 的 类 型 为 key_t， 实 际 上 是 个 整数 。 前 面 讲 过 ， 报 文 队列 以 键 值 而 不 是 文件 名 来 标识 ， 所 以 每 个 
报 文 队列 的 键 值 必须 是 惟一 的 。 不 过 ， 键 值 0， 也 就 是 IPC_PRIVATE， 是 一 种 特殊 情况 。 每 个 进程 都 
可 以 用 键 值 0 建立 一 个 专 供 其 私 用 〔 自 己 发 送 自己 接收 ) 的 报 文 队 列 。 所 以 这 个 特殊 键 值 并 不 是 惟一 
的 。 但 是 ， 正 由 于 这 种 队列 是 私 用 的 ， 所 以 不 存在 要 通过 键 值 找到 一 个 队列 的 问题 。 

正 因 为 这 样 ， 当 键 值 为 IPC_PRIVATE 时 (309 行 )， 就 无 条 件 地 调用 newque( ) 建 立 一 个 报 文 队列 
(310 行 )， 否 则 就 要 先 通过 ipc_findkey( ) 找 一 下 相应 的 报 文 队列 是 否 己 经 仔 在 。 

函数 newque( ) 的 代码 在 同一 文件 msg.c "P: 


[sys ipc( ) > sys msgget( ) > newque( )] 


117 static int newque (key t key, int msgflg) 
118 { 
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int id; 
struct msg queue *msq; 


msq = (struct msg queue *) kmalloc (sizeof (*msq), 


if (!msq) 
return -ENOMEM; 


id = ipc addid(&msg ids, &msq->q perm, msg ctlmni); 


if(id == -1) { 
kfree (msq) : 
return —ENOSPC; 
} 


msq->q_perm. mode = (msgflg & S IRWXUGO); 


msq->q_ perm. key = key; 


msq->q stime = msq->q_rtime 
msq->q_ctime = CURRENT TIME; 
msq->q_cbytes = msq->q_qnum 
msq->q_qbytes = msg ctlmnb; 
msq-^q lspid = msq-?q lrpid 


INIT LIST HEAD (&msq->q pcc 


INIT LIST HEAD(&msq-?q receivers) ; 


INIT LIST HEAD(&msq-^q senders); 


msg unlock(id); 


return msg buildid(id,msq-^q perm. seq); 


} 


GFP_KERNEL) ; 


每 个 报 文 队 亿 都 有 个 队列 头 ， 那 就 是 msg queue 数据 结构 ， 定 义 于 ipc/msg.ck 中 : 


/* one msq_queue structure for each present queue on the system */ 


struct msg_queue { 


struct kern ipc perm q perm; 

time t q stime; 

time t q rtime; /* last msgrcv time */ 
time t q ctime; /* last change time */ 


/* last msgsnd time */ 


unsigned long q cbytes; /* current number of bytes on queue */ 
unsigned long q qnum; /* number of messages in queue */ 
unsigned long q qbytes; /* max number of bytes on queue */ 


pid t q lspid; /* pid of last msgsnd */ 
pid t q_irpid; /* last receive pid */ 


struct list head q messages; 


struct list head q receivers; 


struct list head q senders; 


yj 


反之 ， 每 个 msg_queue 数据 结构 也 惟一 地 对 应 着 个 报 文 队列 。 这 些 数据 结构 以 及 结构 之 间 的 关 
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系 可 以 总 结 如 下 : 
全 局 量 ipc_ids 数据 结构 msg ids 是 系统 中 所 有 报 文 队列 的 “总 根 ”。 


每 个 已 建 立 的 报 文 队列 由 一 个 标识 号 来 代表 ， 与 打开 文件 写 相 似 。 但 是 ， 打 并 文件 写 只 局 限于 每 
个 进程 局 部 ， 而 报 文 队 询 的 标识 号 却 是 全 局 的 ， 所 以 必须 保证 在 全 局 范围 中 的 惟 PE. PRIA A 


数据 结构 msg. ids 中 的 指针 entries 指向 一 个 ipc_id 结构 数组 ， 数 纽 中 的 位 个 元 素 都 是 ipc_id 


数据 结构 ， 结 构 中 有 个 指针 p， 指 向 一 个 kern_ipc_perm 数据 结构 。 


由 十 kern_ipc_perm 数据 结构 是 报 文 队列 头 msg_queue 数据 结构 内 部 的 第 一 个 成 分 , 上 述 数组 
元 素 中 的 指针 p 实际 上 指向 一 个 报 文 队列 ， 数 组 的 大 小 决定 了 已 经 或 可 以 建立 的 报 文 队列 数 


Ee. 
FH o 


ipc_addid( )3} Bii, HARE ÉE ipe/util.c H: 


[sys ipc( ) > sys, msgget( ) > newque( ) > ipc. addid( )] 


134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 
164 
165 
166 


/六 六 
* ipc_addid - add an IPC identifier 
* @ids: IPC identifier set 
* @new: new [PC permission set 
* @size: new size limit for the id array 
* 
* Add an entry ‘new to the IPC arrays. The permissions object is 
* initialised and the first free entry is set up and the id assigned 
* is returned. The list is returned in a locked state on success. 
* On failure the list is not locked and -1 is returned. 
*/ 
int ipc addid(struct ipc ids* ids, struct kern ipc perm* new, int size) 
{ 

int id; 

size = grow_ary (ids, size); 

for (id = 0; id < size; id++) { 

if (ids->entries[id]. p == NULL) 
goto found; 

} 

return -1; 
found: 
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ids-^in use; 
if (id > ids->max id) 
ids-^max id = id; 


current-»euid; 
current—>egid; 


new->cuid ~ new->uid 
new-»gid = new-»cgid 


1l 


new->seq = lds~>seqtt+; 
if (ids—>seq > ids-^seq max) 
ids—>seq = 0; 
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167 

168 spin lock (&ids-—>ary) : 

169 ids-^entrieslid].p = new; 
170 return id; 

171 1 


如 打分 配 慰 识 号 成 功 ， 就 此 将 代表 报 文 队列 的 报 文 队 人 询 头 与 ipe ids 结构 msg ids iE E45. ing Pr 
述 ， 该 结构 中 的 指针 entries 指向 以 标识 号 为 下 标的 ipc_id 结构 数组 ， 人 而 ipc_id 结构 的 内 容 只 是 一 个 指 
针 ， 指 向 一 个 kern_ipc_perm 结构 。 同 时 ,每 个 报 文 队列 头 结构 中 的 第 一 个 成 分 就 是 “个 kern ipc perm 
数据 结构 ， 其 起 始 地 址 与 整个 msg_queue 结构 的 起 始 地 址 相间 。 所 谓 将 某 个 报 文 队 列 头 与 msg, ids ff 
EH, 中 是 把 特定 msg queue 结构 中 kern_ipc_perm 数据 结构 的 起 始 地 址 根据 标识 号 填 入 相应 ipe. id 结 
KJP CH 169 行 )， 并 返回 该 标识 号 。 

然而 ， 既 然 是 数组 ， 就 有 个 人 小 ，ipc_ids 结构 中 的 字段 size 就 记录 着 它 的 大 小 。 可 是 这 个 大 小 怎 
PEEVE? 再 说 ， 再 大 的 数组 也 有 可 能 会 用 完 ， 那 时 候 又 怎么 办 ? 显然 ， 最 好 是 能 根据 实际 的 需要 加 
以 调整 ， 这 了 束 是 ipc addid( ) 的 代 僻 路 调用 grow_ary() 的 日 的 〈ipcyutilLc ); 


[sys_ipc( ) > sys msgget( ) > newque( ) > ipc_addid( ) > grow_ary( )] 


105 static int grow_ary(struct ipc_ids* ids, int newsize) 


106 { 

107 struct ipc id* new; 

108 struct ipc id* old; 

109 int i; 

[10 

111 if (newsize > IPCMNI) 

112 newsize = IPCMNI: 

113 if (newsize <= ids—>size) 

114 return newsize; 

115 

116 new - ipc alloc(sizeof(struct ipc id)*newsize); 
117 if(new == NULL) 

118 return ids->size; 

119 memcpy (new, ids-^entries, sizeof (struct ipc id)*ids-^sizo); 
120 for (i=ids->size;i<newsize;itt+) { 

121 new[i].p = NULL; 

122 } 

123 spin lock(&ids-^ary); 

124 

125 old - ids-^entries; 

126 ids~>entries = new; 

127 i - ids-?size; 

128 ids->size = newsize; 

129 spin unlock(&ids >ary) ; 

130 ipc free(old, sizeof(struct ipc id)*i); 
131 return ids-»size; 

132. ] 
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参数 newsize 表示 新 的 数组 大 小 ,如果 其 数值 大 于 数组 当前 的 大 小 就 男 外 分 配 一 块 空间 来 取代 原 有 
的 数组 .不 过 , 数组 的 大 小 只 会 扩展 而 不 会 缩小 ( 见 113 行 )。 另 一 方面 , 数组 的 扩展 也 有 个 上 限 IPCMNI, 
该 常数 在 include/linux/ipc.h 中 定义 为 32768。 

在 newque( ) 中 调用 ipc_addid( ) 时 将 一 个 全 局 量 msg_ctlmni 作为 参数 传 了 下 来 ， 就 是 这 里 的 
newsize。 这 个 全 局 量 的 初 值 为 MSGMNI， 而 MSGMNI 在 msg.h 中 定义 为 16。 

最 后 ，newque( ) 还 要 将 这 个 标识 号 转换 成 一 个 一 体 化 的 标识 号 。 代 码 中 的 msg_buildid( ) 是 个 宏 定 
义 (msg.c): 


99 #define msg_buildid(id, seq) \ 
100 ipc buildid(&msg ids, id, seq) 


而 ipc. buildid( ) 的 定义 则 在 ipc/util.h 中 : 


87 extern inline int ipc buildid(struct ipc ids* ids, int id, int seq) 


88 { 
89 return SEQ MULTIPLIER*seq + id; 
90 } 


为 什么 要 作 这 样 的 转换 昵 ? 从 ipc_addid( ) 的 代码 中 可 以 看 出 , 出 它 分 配 的 标识 号 实际 上 是 msg. ids 
结构 数组 中 的 数组 下 标 。 这 个 下 标 是 重复 使 用 的 。 如 果 一 个 进程 建立 了 一 个 报 文 队 列 ， 然 后 又 撤消 了 ， 
而 后 来 又 有 另 一 个 进程 要 建立 一 个 报 文 队 列 ， 就 有 可 能 又 将 同一 个 下 标 分 配给 这 个 新 的 队列 。 这 样 ， 
虽然 这 种 标识 号 的 使 用 在 任何 一 个 特定 的 时 间 点 上 是 惟 … 的 ， 但 是 如 果 观 察 一 个 合理 长 的 时 间 跨 度 就 
不 一 定 是 惟一 的 了 。 为 了 克服 这 个 问题 ， 在 msg ids 中 设立 了 一 个 序号 seq: 每 分 配 使 用 … 个 标识 号 时 
就 递增 这 个 序号 ( 见 ipc_addid( ) 中 的 第 16477), 并 且 将 这 个 序号 与 下 标 编码 在 一 起 形成 个 一 体 化 的 
标识 号 。 这 么 一 来 ， 吕 使 在 一 段 时 间 以 后 下 标 又 重复 了 ， 但 由 十 序号 在 递增 ， 所 以 : ~- 体 化 的 标识 号 在 
相当 长 的 一 段 时 期 里 都 能 保证 惟一 性 。 

还 要 注意 ， 键 值 与 标识 号 是 两 码 事 。 用 文件 系统 打 个 比方 ， 则 键 值 类 似 于 文件 名 ， 而 标识 号 类 似 
于 打开 文件 号 。 

回 到 sys msgget( ) 中 。 如 果 健 值 不 是 IPC_PRIVATE， 那 就 先 寻 找 已 给 定 键 值 建立 的 报 文 队列 是 否 
CATE. AX ipc_findkey 的 代码 在 util.c 中 : 


[sys_msgget( ) > ipc_findkey( )] 


82 f/*k 

83 * ipc findkey - find a key in an ipc identifier set 
84 * @ids: Identifier set 

85 * @key: The key to find 

86 * 

87 * Returns the identifier if found or -1 if not. 
88 */ 

89 

90 int ipc findkey (struct ipc ids* ids, key t key) 
91 { 

92 int id; 
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93 struct kern ipc perm* p; 

94 

95 for (id = 0; id <= ids->max id; ide») { 
96 p = ids-^entries[id].p; 

97 if (p==NULL) 

98 continue; 

99 if (key == p-^key) 

100 return id; 

101 ] 


寻找 的 结果 对 于 调用 sys msgget( ) 的 不 同 目的 〈 创 建 或 寻找 ) 有 着 不 同 的 意义 ， 因 此 要 分 不 同 的 
情形 来 处 理 : 中 如 果 找 不 到 ， 那 么 对 于 寻找 的 目的 来 说 是 一 次 失败 ， 而 对 于 创建 的 月 的 来 说 ， 却 是 好 
事 ， 可 以 进而 调用 newque( ) 了 。 人 @ 如 果 找 到 了 ， 那 么 对 于 独占 性 的 创建 (IPC_EXCL 标志 为 1)， 这 是 
一 次 失败 ， 而 对 于 寻找 或 可 共享 的 创建 来 说 却 是 好 事 。 不 过 ， 一 个 已 经 建立 的 报 文 队 列 并 不 是 谁 都 可 
以 来 使 用 或 共享 的 。 一 般 情况 下 ， 只 有 与 创建 者 属于 同一 用 户 并 且 同 一 组 或 者 属于 超级 用 户 的 进程 才 
有 资格 来 使 用 或 共享 。 所 以 在 sys_msgget( ) 中 , 要 调用 ipcperms( ) 先 检查 一 下 访问 权限 是 否 相 符 。 最后， 
同样 还 要 通过 msg_buildid( ) 将 实际 上 是 数组 下 标的 标识 号 转换 成 一 体 化 的 标识 号 。 

函数 ipcperms( ) 的 代码 在 util.c rh: 


[sys msgget( } > ipcperms( )] 


242 / 

243 * ipcperms - check IPC permissions 

244 * @ipcp: IPC permission set 

245 * @flag: desired permission set. 

246 * 

247 * Check user, group, other permissions for access 
248 * to ipc resources. return 0 if allowed 

249 */ 

250 


251 int ipeperms (struct kern ipc perm *ipcp, short flag) 
252 { /* flag will most probably be 0 or S....UGO from <linux/stat. h) */ 


253 int requested mode, granted mode; 

254 

255 requested mode = (flag >> 6) | (flag >> 3) | flag; 

256 granted mode = ipcp-?mode; 

257 if (current->euid == ipcp->cuid || current->euid == ipcp->uid) 
258 granted mode >>= 6; 

259 else if (in group p(ipep cgid) || in group p(ipcp—gid)) 

260 granted mode >>= 3; 

261 /* is there some bit set in requested mode but not in granted mode? */ 
262 if ((requested mode & "granted mode & 0007) && 

263 ! capable (CAP_TPC_OWNER)) 

264 return ~l; 

265 

266 return 0; 
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267 } 


可 网， 报 文 队列 访问 权限 的 管理 与 文件 系统 访问 权限 的 管理 相似 ， 读 者 可 参考 第 5 章 中 有 关 的 内 


a 


6.6.2 PERAK msgsnd( ) 一 一 报 文 发 送 


参与 通信 的 双方 在 通过 msgget( ) 创 建 了 一 个 报 文 队列 或 取得 了 该 队列 的 标识 号 以 后 ， 束 可 以 问 该 
队列 发 送 或 接收 报 文 了 。 先 来 看 报 文 的 发 送 ， 这 个 函数 比较 大 ， 所 以 我 们 还 是 分 段 来 阅读 (msg.c)。 


626 asmlinkage long sys msgsnd (int msgid, struct msgbuf *msgp, size_t msgsz, 
int msgflg) 


627 { 

628 struct msg queue *msq; 

629 struct msg msg *msg; 

630 long mtype; 

631 int err; 

632 

633 if (msgsz > msg ctlmax || (long) msgsz € 0 i| msqid < 0) 
634 return -EINVAL; 

635 if (get user(mtype, &msgp ?mtype)) 
636 return —EFAULT; 

637 if (miype < 1) 

638 return -EINVAL; 

639 

640 msg = load_msg(msgp—mtext, msgsz); 
641 if(IS ERR (msg) ) 

642 return PTR ERR (msg); 

643 

644 msg-»m type = mtype; 

645 msg-?m ts = msgsz; 

646 

647 msq = msg lock (msqid) ; 

648 err--EINVAL ; 

649 if (msq-- NULL) 

650 goto out free; 


首先 是 对 参数 作 一 些 检 查 并 将 报 文 从 用 户 空间 复制 过 来 ， 其 中 msgp 是 指向 一 个 msgbuf 结构 的 指 
针 ， 这 个 数据 结构 是 在 include/linux/msg.h 中 定义 的 : 


34 /* message buffer for msgsnd and msgrcv calls */ 
35 struct msgbuf { 

36 long mtype; /* type of message */ 

37 char mtextÍ il; /* message text */ 

38 F 
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虽然 这 个 指针 已 经 作为 系统 调用 的 参数 传 了 过 米 ， 数 据 结 构 本 身 却 还 企 用 户 空间 ， 所 以 分 别 通 过 
get_user( ) 和 1load_msg( ) 从 用 户 空间 复制 到 系统 空间 。 其 中 10ad_msg( ) 还 要 在 系统 空间 为 此 分 配 缓冲 区 。 
系统 空间 中 使 用 的 msg, msg 结构 与 用 户 空间 中 使 用 的 msgbuf 结构 不 同 (msg.c): 


51 
52 


/* one msg msg structure for each message */ 
struct msg msg { 


i 


struct list head m list; 

long m type; 

int m_ts; /* message text size */ 
struct msg_msgseg* next; 

/* the actual message follows immediately */ 


当 报 义 本 映 的 人 小 加 上 这 个 数据 结构 的 大 小 仍 小 于 个 页 而 时 ，msg_msg 结构 与 报 文本 号 在 同 
页 面 中 ， 而 报 文 本 身 紧 跟 在 msg msg 数据 结构 后 面 。 否则 ， 当 报 文本 身 和 msg msg 结构 不 能 容纳 在 同 
一 页 面 中 时 ， 则 要 将 报 文 分 段 ， 然 后 将 分 布 于 不 同和 页 睾 中 的 报 文 段 链接 起 来 。 此 时 除 第 一 个 页 面 的 开 
头 仍 是 msg msg 结构 以 外 ， 其 他 各 个 页 面 的 开头 都 是 一 个 msg msgseg 结构 ， 而 每 个 报 文 段 的 大 小 则 
为 页 面 大 小 减 去 msg_msgseg AMMA Cmsg.c): 


struct msg msgseg | 


ee 


struct msg msgseg* next; 
/* the next part of the message follows immediately */ 


函数 load msg( ) 的 代码 也 在 msg.c 中 ， 我 们 把 它 留 给 读者 自己 阅读 。 


[sys msgsnd( ) > load msg( )] 


158 
159 
160 
161 
162 
163 
164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 


static struct msg msg* load msg (void* src, int len) 


{ 


struct msg msg* msg; 
struct msg msgseg** pseg; 
int err; 

int alen; 


alen = len; 
if(alen > DATALEN MSG) 
alen = DATALEN MSG; 


msg = (struct msg msg *) kmalloc (sizeof (kmsg) + alen, GFP KERNEL); 
if (msg--NULL) 
return ERR PTR(-ENOMEM) ; 


msg->next = NULL; 


if (copy from user(msg*l, src, alen)) | 
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177 
178 
179 
180 
181 
182 
183 
184 
185 
186 
187 
188 
189 
190 
191 
192 
193 
194 
195 
196 
197 
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err = -EFAULT; 
goto out err; 


} 


len -= alen; 
src = ((char*) src) +alen; 
pseg = &msg->next; 
while(len > 0) { 
struct msg_msgseg* seg; 
alen = len; 
if(alen > DATALEN_SEG) 
alen = DATALEN_SEG; 
seg-(struct msg_msgseg*) kmalloc (sizeof (*seg)* alen, GFP KERNEL); 
if (seg==NULL) { 
err--ENOMEM; 
goto out err; 
} 
*pseg = seg; 
seg->next = NULL; 
if(copy from user (seg*l, src, alen)) { 
err = -EFAULT; 
goto out err; 
} 
pseg = &seg->next; 
len -= alen; 
sre = ((char*) src) talen; 
} 


return msg; 


out_err: 
free msg (msg) ; 
return ERR PTR (err); 
} 


回 到 sys msgsnd( ) 的 代码 中 。647 行 函数 msg_lock( ) 的 作用 是 根据 给 定 的 标识 号 找到 相应 的 报 文 
， 并 将 其 数据 结构 上 锁 。 
至 此 ， 所 需 的 准备 工作 基本 完成 了 ， 我 们 继续 在 msg.c 中 往 下 看 : 


[sys msgsnd( )] 


651 
652 
653 
654 
655 
656 
657 


retry: 
err- -EIDRM; 
if (msg checkid (msq, msqid)) 
goto out unlock free; 


err=—EACCES ; 
if (ipeperms (&msq->q_perm, S IWUGO)) 
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658 goto out_unlock free; 

659 

660 if (msgsz + msq->g_cbytes > msq->q_qbytes | | 
661 1 + msq->q_qnum > msq-?q qbytes) { 
662 struct msg sender s; 

663 

664 if (msgf lg&IPC NOWAIT) { 

665 err--EAGAIN; 

666 goto out unlock free; 

667 } 

668 ss add(msq, &s); 

669 msg unlock (msqid) ; 

670 schedule( ); 

671 current->state= TASK RUNNING; 
672 

673 msq = msg lock(msqid); 

674 err = —EIDRM; 

675 if (msq==NULL) 

676 goto out_free; 

677 ss_del (&s) ; 

678 

679 if (signal pending(current)) | 
680 err--EINTR; 

681 goto out uniock free; 

682 } 

683 goto retry; 

684 } 


在 用 户 界面 上 使 用 的 队列 标识 号 是 经 过 编码 的 - - 体 化 标识 写 ， 这 里 还 要 再 检验 一 下 。 可 是 ， 既 然 
这 个 队列 是 通过 msg_lock( ) 找 到 的 , 为 什么 还 要 再 检验 呢 ? A -下 msg_lock( ) 和 msg_checkid( ) 的 代码 
就 清楚 了 《msg.c): 


94 #define msg_lock (id) ((struct msg dqueue*) ipc_lock (&msg_ids, id)) 


97 fidefine msg checkid(msq, msgid) \ 
98 ipc checkid(&msg ids, &msq-^q perm, msgid) 


两 个 inline e ZI] MARTE util.h F: 


[sys, msgsnd( ) > msg lock( ) > ipe lock( )] 


68 extern inline struct kern ipc perm* ipc lock(struct ipc ids* ids, int id) 
69 { 

70 struct kern ipc perm* out; 

71 int lid = id % SEQ MULTIPLIER; 

12 if (lid > ids-^size) 

73 return NULL; 
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74 

75 spin lock (&ids—>ary) ; 

76 out = ids->entries[lid]. p; 
77 if (out--NULL) 

78 spin unlock (&ids-^ary); 
19 return out; 

80  j 


[sys msgsnd( ) > msg checkid ( ) > ipc checked( )] 


92 extern inline int ipc checkid(struct ipc ids* ids, 
struct kern ipc perm* ipcp, int uid) 
93 | 
94 if (uid/SEQ MULTIPLIER != ipcp->seq) 
95 return 1; 
96 return 0; 
97 } 


By WL, ipe_lock( ) 中 只 用 了 标识 号 中 的 下 标 部 分 , MHRA BEY 5 Bo), 所 以 要 由 ipe checkid() 
加 以 检查 。 此 外 ， 还 要 通过 ipcperms( ) 怜 查 当 前 进程 是 否 有 权 癌 这 个 队列 发 送 报 文 。 注 意 在 ipc_lock( ) 
中 调用 了 spin_lock( ) 将 ipe ids 结构 中 的 数组 锁 住 ， 但 是 在 正常 条 件 下 并 没有 解锁 《只 是 在 out 为 0， 
如 失败 的 情况 下 才 调 用 了 spin unlock( ))。 这 个 锁 要 在 与 msg_lock( ) 配 对 的 msg_unlock( ), Hj 
ipc_unlock( ) 中 才 解 开 : 


[sys msgsnd( ) > msg_unlock( ) > ipc_unlock( )] 


82 extern inline void ipe_unlock (struct ipc_ids* ids, int id) 


83 { 
84 spin_unlock (&ids—>ary) ; 
85 } 


EE LES ETE T NB RE IK eR A ET ZA ESTE UR FB LA A AH 

顺利 通过 了 这 些 检查 以 后 ， 就 要 检查 报 文 队 刻 的 容量 了 。660 行 的 if 语句 中 msg->q_qbytes 为 该 
报 文 队列 的 总 容量 ， 这 个 容量 是 在 建立 报 文 队列 时 设置 好 的 ， 但 是 可 以 通过 MSGCTL 操作 加 以 改变 。 
如 果 当 前 报 文 的 大 小 如 上 队列 中 当前 总 计 的 字 节 数 msg->q_qbytes 超出 了 这 个 容量 , 就 暂时 不 能 往 队 出 
电 送 了 。 此 外 ， 虽 然 总 许字 节 数 并 未 超过 容量 ， 但 足 队 列 中 报 文 的 个 数 msg->q_qnum 却 已 经 达到 了 
msg-»q qbytes (这 说 明 队 刻 中 所 有 报 文部 只 有 个 字 节 ， 或 有 的 报 文 长 度 为 0)， 就 也 不 能 往 里 送 了 。 
这 时 候 ， 就 要 看 系统 调用 参数 中 的 IPC_NOWAIT 是 否 为 1， 是 的 话 束 出 错 返 问 ， ASA BEA GE T. 
在 进入 睡眠 之 前 ， 还 要 将 :个 msg sender 数据 结构 挂 入 报 文 队列 中 的 q_senders 链 。 XIF, ME AIR 
文 队列 的 q_senders 链 就 可 以 找到 每 个 正在 睡眠 中 等 待 着 发 送 的 进程 。 最 后 ， 还 要 在 进入 睡眠 之 前 将 报 
文 队列 解锁 ， 使 其 他 进程 可 以 访问 这 个 队列 一 一 要 不 然 就 没有 进程 可 以 从 中 读 取 报头 了。 这 围 (668 
行 ) 的 ss_add( ) 是 个 inline 函数 (msg.c): 


[sys msgsnd( ) > ss_add( )] 
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237 static inline void ss add(struct msg_qucue* msq, struct msg sender* mss) 
238 { 

239 mss-»tsk-current; 

240 current-2state-TASK INTERRUPTIBLE; 

241 list add tail (&mss—>list, &msq-^q senders); 

242  ] 


if] msg sender 结构 的 定义 为 (msg.ce?: 


45 /* one msg sender for cach sleeping sender */ 
46 struct msg sender { 

4T struct list head list; 

48 struct task struct* tsk: 

49 }; 


IH x 3.2: BERE — PROBA SJ. msg queue 结构 、 报 文 头 部 msg msg 结构 以 及 报 文 段 头 部 
msg msgseg 结构 的 定义 ， 并 将 这 些 数 据 结 构 的 定义 综合 起 来 ， 就 叮 以 形成 这 样 个 图 景 ( 见 图 6.8)。 


msg_queue msg_msg msg msg 
z eae 其 他 报 文 
mhsg_msgseg msg msgseg 









msg sender msg sender 


6.8 报 文 队列 结构 连接 示意 图 


岁 中 的 第 一 个 报 义 连同 其 头 部 msg. msg 结构 可 以 容纳 在 同 一 个 页 面 中 ;而 第 二 个 报 文 则 因为 太 大 
而 分 成 “ 段 ， 分 处 于 一 个 页 面 中。 队列 的 q_senders 链 中 有 两 个 进程 正在 睡眠 中 等 待 着 向 这 个 队列 发 送 
报 文 。 队 列 中 实际 上 还 有 - -条 q_receivers 链 ， 当 有 进程 在 睡眠 中 等 待 着 从 这 个 队列 接收 报 文 时 ， 就 将 
其 msg receive 结构 挂 入 这 条 链 中 。 一 般 而 言 ， 当 q_senders 链 中 有 进程 在 等 着 发 送 就 说 明 队 例 中 有 报 
文 ， 所 以 就 不 会 有 进程 在 q_receivers 链 中 等 待 接 收 ， 反 之 亦 然 。 可 见 ， 所 谓 报 文 队列 实际 上 并 不 内 是 
一 个 简单 的 队列 ， 而 是 以 报 文 的 队列 为 主 ， 包 括 了 三 个 队列 以 及 控制 信息 在 内 的 一 -整套 数据 结构 。 

当 有 进程 从 这 个 队列 中 读 取 报 文 而 腾 出 了 一 些 衬 间 时 ， 止 在 等 待 着 发 送 的 进程 就 被 唤醒 ， 从 前 面 
670 47 HY schedule ) 返 加 。 但 是 ， 腾 出 来 的 空间 对 于 某 个 特定 进程 所 欲 发 送 的 报 文 来 说 未 必 就 已 足够 ， 
而 且 正在 等 竺 友 送 的 进程 也 可 能 不 下 一 个 ， 其 至， 在 发 送 进 种 睡眠 的 期 间 ， 其 他 条 件 也 可 能 已 经 发 竺 
了 变化 。 所 以 ， 这 时 候 还 要 再 米 一 轮 对 各 种 条 件 的 检查 ， 而 在 此 期 间 又 得 将 该 报 文 队列 锁 住 。 

在 系统 调用 中 ， 一 个 进程 从 睡眠 中 有 睡 来 时 通常 都 要 检查 是 否 有 信号 在 等 待 处 型， 如 有 的 话 就 提前 
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结束 本 次 系统 调用 的 执行 。 也 就 是 说 ， 在 这 种 情况 下 把 对 信号 的 处 理 放 在 更 为 优先 的 地 位 。 同 时 ， 由 
于 系统 调用 “流产 ”了 ， 所 以 返回 出 错 代码 EINTR， 表 示 系 统 调 用 的 执行 被 中 途 打 断 了 。 我 们 以 前 讲 
过 ， 内 核 在 完成 对 信号 的 处 理 以 后 要 检查 系统 调用 返回 的 出 错 代码 ， 如 果 遇 上 EINTR 就 会 安排 重新 执 
行 一 次 流产 的 系统 调用 。 

如 果 没 有 信号 在 等 待 处 理 ， 则 通过 683 行 的 goto 语句 转 回 标号 retry 处 重新 检查 一 过 。 

就 这 样 ， 在 正常 条 件 下 ， 最 终 队 列 中 总 会 有 足够 的 空间 让 等 待 中 的 进程 发 送 其 报 文 ， 那 对 候 程序 
就 往 下 走 了 (msg.c): 


[sys msgsnd( )] 


686 if(lpipelined send(msq,msg)) | 
687 /* noone is waiting for this message, enqueue it */ 
688 list add tail(&msg-^m list, &msq-?q messages); 
689 msq-?»q cbytes += msgsz; 

690 msq->q_qnumt+; 

691 atomic add(msgsz, &msg bytes); 
692 atomic inc(&msg hdrs); 

693 } 

694 

695 err = 0; 

696 msg = NULL; 

697 msq->q_lspid = current~>pid; 

698 msq->q_stime = CURRENT TIME; 

699 

700 out_unlock free: 

701 msg unlock (msqid) ; 

702 out free: 

703 if (msg!=NULL) 

704 free msg (msg) ; 

705 return err; 

706 } 


报 文 的 进程 就 完事 了 。 可 是 ， 实 际 上 这 个 过 程 是 可 以 优化 的 ， 内 为 如 果 有 进程 正在 等 竺 接收， 就 不 必 
将 报 文 链 入 队列 再 由 接收 进程 随后 青 来 将 报 文 从 队列 中 脱 链 了 。 也 就 是 说 ， 只 有 当 没 有 进程 在 等 待 接 
收 时 才 需 要 将 报 文 挂 入 队列 。 代 码 中 的 pipelined_send( ) 正 是 为 此 和 而 设计 的 《msg.c)。 


[sys_msgsnd( ) > pipelined_send( )] 


600 int inline pipelined_send (struct msg queue* msq, struct msg msg* msg) 
601 { 

602 struct list_head* tmp; 

603 

604 tmp = msq->q_receivers. next; 

605 while (tmp != &msq->q receivers) | 
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606 struct msg receiver* msr; 

607 msr = list entry(imp,struct msg receiver,r list); 
608 tmp = tmp-?next; 

609 if (testmsg (msg, msr->r_msgtype, msr—->r_mode)) { 
610 list del(&msr—r list); 

611 if(msr-^r maxsize < msg-^m ts) { 

612 msr-»r msg = ERR PTR(-E2BIG) ; 

613 wake up process(msr—^r tsk); 

614 } else { 

615 msr->r_msg = msg; 

616 msq-?q lspid = msr->r_tsk->pid; 

617 msq->q_rtime = CURRENT TIME; 

618 wake up. process (msr—>r_tsk) ; 

619 return 1; 

620 } 

621 } 

622 } 

623 return 0; 

624 } 


报 文 队列 的 q_receivers 链 中 聚集 着 正在 睡眠 等 待 从 本 队列 接收 报 文 的 进程 (如 果 有 的 话 )。 数 据 结 
构 msg receiver 与 msg sender 有 所 不 同 (msg.c): 


33 /* one msg receiver structure for each sleeping receiver */ 
34 struct msg receiver | 

35 struct list head r list; 

36 struct task struct* r tsk; 

37 

38 int r mode; 

39 long r msgtypoe; 

40 long r maxsize; 

41 

42 struct msg msg* volatile r msg; 
43}; 


其 中 的 指针 r msg 就 是 在 上 述 情 况 下 用 于 报 文 交接 的 。 函 数 pipelined_send( ) 在 q. receivers 链 中 从 
头 开始 ， 逐 个 检查 等 待 中 的 进程 里 想 要 接收 的 报 文 种 类 与 模式 是 洗 与 到 来 的 报 文 相 符 。 若 相符 ， 则 进 
一 步 检 查 其 缓冲 区 是 否 够 用 ， 不 够 用 就 将 该 进程 唤醒 令 其 出 错 返回 。 此 过 程 直 至 磁 到 第 一 个 所 有 条 件 
全 部 相符 的 接收 进程 ， 然 后 将 到 来 的 报 文 交 给 这 个 进程 ( 见 615 行 )， 并 将 其 唤醒 。 

JI ORI Y q_receivers 链 而 没有 发 现任 何 一 个 等 待 中 的 进程 满足 条 件 , 则 pipelined_send( ) 返 回 0, 
那样 ， 在 sys_msgsnd( ) 中 就 此 将 报 文 持 入 队列 中 了 《多 688 行 )。 


6.6([3 FER msgrcv( ) 一 一 报 文 接收 


再 来 看 报 文 的 接收 ， 我 们 还 是 逐 段 地 往 下 看 Cmsg.c): 
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asmlinkage long sys_msgrev (int msqid, struct msgbuf *msgp, size_t msgsz, 


{ 


long msgtyp, int msgflg) 


struct msg_qucue *msq; 

struct msg receiver msr d; 
struct list head* tmp; 

struct msg msg* msg, *found msg; 
int err; 

int mode; 


if (msqid < 0 || (long) msgsz < 0) 
return -EINVAL; 
mode = convert mode (&msgtyp, msgf lg) ; 


msq = msg_lock (msqid) ; 
if (msq==NULL) 
return —EINVAL; 


这 一 段 与 sys_msgsnd( ) 的 开头 相似 , 739 {TAK convert_mode() 根据 参数 msgtyp 和 msgflg， 妇 纳 
出 接收 报 文 时 所 遵循 的 准则 《msg.c): 


[sys msgrcv( ) > convert_mode( )] 


708 
709 
710 
711 
712 
713 
714 
715 
716 
717 
718 
719 
720 
721 
722 
723 
724 
125 


int inline convert mode (long* msgtyp, int msgflg) 


| 


} 


* find message of correct type. 
* msgtyp = 0 => get first. 
* msgtyp > 0 => get first message of matching type. 
* msgtyp < 0 => get message with least type must be < abs (msgtype). 
*/ 
if (*msgtyp==0) 
return SEARCH ANY; 
if (¢msgtyp<O) | 
*nsgtyp-- (*msgtyp) ; 
return SEARCH LESSEQUAL; 
} 
if(msgflg & MSG EXCEPT) 
return SEARCH, NOTEQUAT ; 
return SEARCH EQUAL; 


程序 中 的 注解 已 经 讲 得 很 清楚 ， 程 序 也 很 简单 。 
函数 msg lock ) 的 代码 已 经 在 前 面 看 到 过 了 , 它 根据 报 文 队列 标识 号 找到 具体 的 队列 并 将 其 上 锁 。 
我 们 继续 往 下 看 。 读 者 可 以 看 到 ，sys_msgrcv( ) 存 程序 结构 上 与 sys_msgsnd( ) 是 相似 的 (msg.c): 


[sys_msgrcv( )] 
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744 retry: 

745 err=—EACCES; 

746 if (ipeperms (&msq-^q perm, S IRUGO)) 
747 goto out_unlock; 

748 

749 tmp = msq->q messages. next; 

750 found_msg=NULL.: 

751 while (tmp != &msq->q messages) { 
752 msg = list_entry (tmp, struct msg msg,m list); 
753 if (testmsg (msg, msgtyp, mode)) { 
754 found msg = msg: 

755 if (mode == SEARCI LESSEQUAL && msg->m type != 1) { 
156 found msg=msg; 

757 msgtyp-msg-»m type-l; 

758 } else { 

159 found msg=msg; 

760 break; 

761 } 

762 } 

763 tmp = tmp->next; 

764 } 


首先 是 检查 当前 进程 对 队列 的 访问 权限 〈746 行 )。 函 数 ipepermst ) 的 代码 已 经 在 以 前 看 到 过 了 ， 
所 不 同 的 古 这 里 的 参数 为 S$_JIRUGO。 因 为 从 队列 接收 相当 于 从 文件 读 ; 而 在 sys_msgsnd( ) 中 使 用 的 参 
数 则 为 S IWUGO， 因 为 那 相 当 于 向 文件 写 。 

然后 就 是 逐个 检查 已 经 在 队列 中 的 报 文 了 。 注 意 752 行 的 宏 操 作 list_entry( ) 并 不 是 将 报 文 从 队列 
中 脱 链 ， 而 只 是 根据 队列 中 的 当前 项 找到 指向 其 所 在 数据 结构 的 指针 。 我 们 在 第 1 章 中 曾 介绍 过 通用 
的 队列 操作 , 读者 如 果 忘 了 可 以 回 过 头 去 看 一 卜 。 接 着 ,753 行 中 的 函数 testmsg( ) 的 代码 如 下 (msg.c): 


[sys msgrcv( ) > testmsg( )] 


578 static int testmsg (struct msg msg* msg, long type, int mode) 


579 { 

580 switch (mode) 

581 { 

582 case SEARCH ANY: 

583 return 1; 

584 case SEARCH LESSEQUAL: 

585 if(msg-?m type <=type) 
586 return 1; 

587 break; 

588 case SEARCH EQUAL: 

589 if(msg-^m type =- type) 
590 return 1; 

591 break; 

592 case SEARCH NOTEQUAL : 
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593 if (msg->m type != type) 
594 return 1; 

595 break; 

596 } 

597 return 0; 

598 } 


当 接收 的 准则 (mode) 为 SEARCH_LESSEQUAL 时 ,testmsg( ) 在 这 里 所 检查 的 条 件 是 msg->m_type 
<= msgtyp, 也 就 是 该 报 文 的 类 型 值 小 于 或 等 于 作为 参数 传 过 来 的 msgtyp。 然 而 ,SEARCH_LESSEQUAL 
所 要 求 的 实际 上 是 已 经 到 达 的 报 文 中 类 型 值 为 最 小 者 ,而 类 型 值 最 小 是 1。 所 以 , 虽然 找到 了 个 满 是 
msg->m_type <= msgtyp 这 个 条 件 的 报 文 ， 但 却 未必 是 最 佳 选择 。 因 此 ， 只 是 将 此 报 文 作为 迄今 为 止 的 
最 佳 候选 ， 而 将 msgtyp 的 值 减 小 到 比 这 个 报 文 的 类 型 值 更 小 〈 见 757 行 )， 看 看 还 能 不 能 找到 更 小 的 。 
不 然 的 话 ， 当 接收 的 准则 为 SEARCH. ANY 或 其 他 时 ， 则 总 是 找 队列 中 第 一 个 满足 条 件 的 报 文 ， 而 且 
一 日 发 现 了 一 个 就 不 用 再 往 下 找 了 ( 见 760 行 的 break 语句 )。 这 样 ， 当 751 行 开始 的 while 循环 结束 
时 ， 只 要 有 一 个 报 文 符合 接收 准则 和 类 型 ，found_msg 就 指向 这 个 报 文 。 表 往 下 看 (msg.c): 


[sys_msgrcv( )] 


765 if (found msg) | 

766 msg-found msg; 

161 if ((msgsz < msg-^m ts) && t(msgflg & MSG NOERROR) ) { 
768 err--E2BT6; 

769 goto out_unlock; 

770 } 

771 list del (&msg->m_list); 

772 msq-?q_qnum——; 

773 msq->q_rtime = CURRENT TIME; 

774 msq-?q lrpid = current-?pid; 

115 msq-^q cbytes -= msg->m ts; 

116 atomic sub(msg-^m ts, &msg bytes); 

777 atomic dec(&msg hdrs); 

778 ss_wakeup (&msq->q_senders, 0) ; 

779 msg_unlock (msqid) ; 

780 out success: 

781 msgsz = (msgsz > msg->m_ts) ? msg->m_ts : msgsz; 
782 if (put user (msg->m type, &msgp->mtype) | | 
783 store msg(msgp-?mtext, msg, msgsz)) | 
784 msgsz = ~EFAULT; 

785 } 

786 free msg (msg) ; 

787 return msgsz; 

788 } else 


从 队列 中 找到 了 符合 接收 准则 和 类 型 的 报 文 ， 还 不 一 定 就 能 够 接收 这 个 报 文 ， 还 得 要 看 用 户 程序 

所 提供 的 缓冲 区 空间 是 否 足 够 大 。 如 果 缓 冲 区 空间 msgsz 不 够 大 ， 而 用 户 又 不 允许 在 报 文 的 尾部 截 近 

一 块 ， 那 就 只 好 出 错 返 回 了 。 反 之 ， 就 可 以 接收 这 个 报 文 ， 也 就 是 将 其 从 队列 中 脱 链 〈 见 771 行 》 并 
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相应 调整 和 设置 些 用 于 控制 和 统计 的 变量 。 前 面 讲 过 ， 当 队列 中 已 经 有 报 文 存在 时 ， 如 果 有 进程 要 
向 此 队列 发 送 报 文 ， 就 有 可 能 因 队列 的 容量 不 足 而 只 好 在 队列 的 发 送 进 程 链 中 等 待 。 现 在 既然 从 队列 
中 接收 了 一 个 报 文 ， 就 腾 出 了 一 些 空间 ， 所 以 要 调用 ss_wakeup( )， 顺 着 这 个 链 将 正在 睡眠 中 的 进程 全 
部 唤醒 (msg.c): 


[sys msgrcv( ) > ss_wakeup( )] 


250 static void ss_wakeup(struct list head* h, int kill) 


251 { 

252 struct list head *tmp; 

253 

254 tmp = h->next; 

255 while (tmp !- h) { 

256 struct msg sender* mss; 
251 

258 mss = list entry(tmp, struct msg sender,list); 
259 tmp = tmp->next: 

260 if (kill) 

261 mss—>list. next=NULL; 
262 wake up process (mss->tsk) ; 
263 } 

264  ] 


注意 这 里 在 将 每 个 msg, sender 结构 脱 链 以 后 并 不 释放 其 空间 ， 因 为 这 个 数据 结构 是 作为 局 部 量 分 
配 在 相应 进程 的 系统 空间 堆栈 上 的 。 污 者 不 妨 回 过 去 看 一 下 sys msgsnd( ) 的 代码 。 

最 后 ， 要 将 实际 接收 的 报 文 类 型 通过 put_user( ) 送 回 用 户 空间 ， 并 通过 store_msg( ) 将 接收 到 的 报 
文 按 实 际 接收 的 长 度 〈( 见 781 行 ) 复制 到 用 户 空间 ， 然 后 将 系统 空间 中 的 报 文 《缓冲 区 释放。 

那么 ， 如 果 此 时 报 文 队列 中 尚 无 报 文 可 供 接收 昵 ? 再 往 下 看 (msg.c); 


[sys_msgrev( )] 


788 } else 

789 { 

790 struct msg queue *t; 

791 /* no message waiting. Prepare for pipelined 
192 * receive. 

793 */ 

794 if (msgflg & IPC NOWAIT) { 

795 err--ENOMSG; 

796 goto out_unlock: 

797 } 

798 list_add_tail (&msr_d. r_list, &msq->q_ receivers): 
799 msr_d.r tsk = current; 

800 msr d.r msgtype = msgtyp: 

801 msr d.r mode - mode; 

802 if(msgflg & MSG NOERROR) 
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803 msr d.r maxsize = INT_MAX; 
804 else 

805 msr d.r maxsize = msgsz; 

806 msr d.r msg - ERR PTR(-EAGATN) ; 
807 current->state = TASK INTERRUPTIBLE; 
808 msg unlock (msgid) ; 

809 

810 schedule( ); 

811 current-^state = TASK RUNNING; 
812 

813 msg = (struct msg msg*) msr d.r msg; 
814 if (!1S_ERR (msg) } 

815 goto out_success; 

816 

817 t = msg lock (msqid) ; 

818 if (t==NULL) 

819 msqid--1; 

820 msg = (struct msg msg*)msr d.r msg; 
821 if (11S ERR(msg)) { 

822 /* our message arived while we waited for 
823 * the spinlock. Process it. 
824 */ 

825 if (nsqid!--1) 

826 msg unlock (msqid) ; 

827 goto out_success; 

828 } 

829 err = PTR ERR (msg) ; 

830 if(err == -EAGAIN) { 

831 if (msqid== 1) 

832 BUG ( ) ; 

833 list del(&msr d.r list); 

834 if (signal pending(current)) 
835 err--EINTR:; 

836 else 

837 goto retry; 

838 } 

839 j 

840 out unlock: 

841 if imsgid!--1) 

842 msg unlock(msqid); 

843 return err; 

844 |] 


如 果 调 用 参数 中 的 IPC_NOWAIT 标志 为 1， 那 就 立即 返回 了 ， 出 错 代 但 为 ENOMSG. d, mM 
睡眠 等 待 了 。 当 然 ， 入 睡 前 划 将 报 文 队列 解锁 。 
就 像 在 唾 眠 时 等 待 发 送 时 一 样 ， 在 睡眠 等 待 接收 时 也 要 将 一 个 代表 当前 进程 的 msg, receiver Hys 
结构 链 入 报 文 队列 中 的 q receiver 队列 。 我 们 已 经 在 前 面 看 到 过 这 种 数据 结构 的 定义 。 与 msg sender 
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不 同 的 是 ， 在 msg. receiver 结构 中 还 记录 着 所 欲 接 收 的 报 文 类 型 、 缓 冲 区 大 小 以 及 接收 的 准则 。 此 外 ， 
这 个 结构 中 还 有 一 个 用 来 交接 报 文 的 指 外 r_msg。 所 有 这 些 结构 成 分 的 设置 前 是 为 了 一 旦 有 进程 缆 向 此 
报 文 队列 发 送 报 文 时 可 以 抄 近 路 〈 见 pipelined_send( ) 的 代码 )。 

一 般 来 说 ， 当 前 进程 一 号 有 睡 下 ， 就 要 等 到 有 进程 通过 pipelined_send( ) 向 这 个 队列 发 送 报 文 ， 并 旧 
选择 这 个 进程 作为 接收 进程 时 才 会 被 唤醒 ， 因 此 要 到 那 时 候 才能 从 810 行 的 schedule( Elu, £& 
pipelined send( ) 的 代码 ， 可 以 看 到 当前 进程 在 被 唤醒 的 时 候 有 两 种 可 能 的 情况 。- -种 是 已 经 接收 到 了 


msr d.r msg 仕 进 入 睡眠 前 ,已 被 预 设 为 一 EAGAIN ( 见 806 行 )， 所 以 在 这 种 情况 下 msr d.r msg 中 也 
是 一 个 出 错 代 码 。 因 此 ， 当 进程 从 schedule( i WI, # msr. d.c msg 中 不 是 出 错 代码 就 表示 接收 成 功 
T (M 827 47). 

如 条 是 出 错 代 码 呢 ? 这 里 此 仔细 往 下 看 了 。 原 作者 在 这 里 加 了 注释 ， 但 可 能 厅 是 很 容易 看 懂 。 首 
先 龙 对 报 文 众 列 加 锁 。 对 于 这 一 点 应 该 是 好 理解 的 ， 只 要 看 到 837 行 的 goto 语句 就 能 明白 ， 当 前 进程 
ERE 744 行 的 标号 retry 处 开始 新 轮 的 接收 操作 ， 所 以 要 将 报 文 队列 锁 住 ， 但 是 ， msg_lock( ) 中 
调用 的 spin_lock( ) 可 能 隐藏 着 等 待 ， 央 为 有 可 能 另 一 个 进程 〈 在 另 :个 CPU 上 运行 ) 已 经 抢先 一 步 把 
队列 锁 住 了 。 另 一 方面 ， 还 要 看 到 ， 如 果 当 前 进程 是 因为 接收 到 信和 号 而 被 唤 配 ， 则 其 msg receiver £5 
FJ msr_d 仍 留 在 报 文 队列 的 q. receivers 链 中 。 这 样 ， 在 进程 被 唤醒 以 后 ， 直 到 让 817 行 的 msg. lock( ) 
中 成 功 地 将 报 文 队列 锁 住 之 前 ， 仍 有 可 能 接收 到 其 他 进程 通过 pipelined. send ) 发 来 的 报 文 。 正 因为 这 
FF, fE msg lock( )2 ait BAA F msr_d.r_msg。 如 果 它 变 成 了 一 个 报 文 指针 ， 那 么 也 是 接收 成 功 
了 。 胆 然 此 时 有 信和 号 在 等 待 着 处 理 ， 但 由 十 本 次 系统 调用 的 主体 已 经 完成 ， 所 以 还 是 转向 out success 
先 将 接收 到 的 报 文 复制 到 用 户 空间 中 。 反 正 那 以 后 很 快 就 要 从 系统 调用 返回 ， 到 那 时 候 再 米 处 理 信和 号 
也 不 迟 。 但 是 ， 如 果 msr dun msg 仍 是 出 错 代 码 ， 那 就 又 要 分 析 了 。 在 806 行 ， 忆 经 将 msr d.r msg fi 
WUX-—EAGAIN, HA pipelined send( )， 才 会 在 唤醒 一 个 正在 等 待 接收 的 进程 前 改变 其 msr_d.r_msg 
的 内 容 。 所 以 ， 如 果 出 错 代码 为 一 E2BIG， 就 说 明 当 前 进程 肯定 是 由 某 个 发 送 进程 在 pipelined_send( ) 
中 唤醒 的 。 只 要 出 错 代码 起 一 E2BIG (只 要 不 是 一 EAGIN 就 必然 是 一 E2BIG)， 就 出 错 返 回 了 。 当 然 ， 
在 返 问 前 楼 将 报 文 队列 解锁 ( 见 842 行 )。 至 于 有 可 能 正在 等 待 处 理 的 信和 号 ， 则 在 从 系统 调用 返回 之 前 
还 会 有 检查 并 处 理 。 反 之 ， 旭 果 出 错 代 码 为 一 EAGIN， 则 说 明 当 前 进 称 不 是 由 pipelined_send( BRA, 
所 以 要 将 本 进程 的 msg. receiver 结构 脱 链 。 然 后 再 看 到 底 是 否 有 信号 在 等 着 要 处 理 。 如 果 有 信号 等 待 
处 理 ， 融 将 返 问 值 设 成 一 EINTR 并 且 提 前 返回 ， 否 则 ， 如 果 没 有 信号 在 等 待 处 理 的 话 ， 就 跳 转 同 retry 
开始 新 FRR CBA. VERE, EHF msg receiver 结构 msr d 是 作为 局 部 量 分 配 在 堆栈 上 的 ， 所 以 不 
用 《而 是 不 可 )》 释放 其 空间 。 


6.6.4 PERZ msgctl( ) 一 一 报 文 机 制 的 控制 与 设置 


ERE, 命名 管道 和 无 名 符 道 的 缺点 之 -- 起 缺乏 对 管道 的 控制 手段 ， 也 缺乏 获 皮 其 状态 信息 ( 例 
如 ， 有 和 多少 个 字 节 已 经 在 管道 中 等 待 着 读 取 ) 的 手段 。MSGCTL 操作 正 是 为 报 文 队列 提供 了 这 样 的 手 
段 。 内 核 中 的 函数 sys _msgctl( ) 的 界面 为 《msg.c); 
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69 asmlinkage long sys msgctl (int msqid, int cmd, struct msqid_ds *buf) ; 


其 中 参数 cmd 为 具体 的 命令 码 ， 定 义 于 include/linux/ipc.h 中 : 


34 /* 

35 * Control commands used with semctl, msgctl and shmctl 
36 * see also specific commands in sem.h, msg.h and shm.h 
^ Yi */ 

38 define IPC RMID 0 /* remove resource */ 

39 Hdefine IPC SET 1 /* set ipc perm options */ 

40 #define IPC STAT 2 /* get ipc perm options */ 


41 &define IPC INFO 3 /* see ipcs */ 


这 些 命令 码 并 不 是 专 为 报 文 队列 而 设置 的 ， 也 适用 十 SysV IPC 的 其 他 两 种 机 制 。 对 于 具体 的 机 
制 则 可 能 还 要 再 补充 若干 专用 的 命令 。 就 报 文 队列 而 言 ， 在 include/linux/msg.h PEM f WPS eS 
ha: 


6 /* ipcs ctl commands */ 
了 #define MSG_STAT 11 
8 #define MSG_INFO 12 


在 为 SysV IPC 设置 的 这 些 命令 中 ，IPC_RMID 用 来 撤消 一 个 标识 号 ， 对 报 文 队 列 而 言 也 就 是 撤 
消 一 个 报 广 队列， 其 作用 相当 于 文件 系统 中 的 “关闭 文件 ”TPC_SET 用 来 改变 相应 IPC 设施 的 各 种 状 
态 和 属性 。 而 IPC STAT 和 IPC. INFO 则 分 别 用 来 获取 关于 相关 设施 的 状态 或 统计 信息 。 
调用 参数 buf 为 一 个 msgid_ds 结构 指针 。 这 个 结构 使 用 于 IPC_STAT 和 IPC_SET， 是 在 msg.h 中 
定义 的 : 


14 /* Obsolete, used only for backwards compatibility and libc5 compiles */ 
15 struct msqid_ds { 


16 struct ipc perm msg perm; 

17 struct msg *msg first; /* first message on queue, unused */ 
18 struct msg *msg_ last; /* last message in queue, unused */ 
19 | kernel time t msg stime; /* last msgsnd time */ 

20 | kernel time t msg rtime; /* last msgrcv time */ 

21 | kernel time t msg ctime; /* last change time */ 

22 unsigned long msg lcbytes; /* Reuse junk fields for 32 bit */ 
23 unsigned long msg ldbytes; /* ditto */ 

24 unsigned short msg cbytes; /* current number of bytes on queue */ 
25 unsigned short msg qnum; /* number of messages in queue */ 

26 unsigned short msg qbytes; /* max number of bytes on queue */ 
27 | kernel ipc pid t msg Ispid;  /* pid of last msgsnd */ 

28 . kernel _ ipc pid t msg lrpid;  /* last receive pid */ 

29 }; 


代码 作者 在 注释 中 说 这 个 数据 结构 已 经 过 时 ， 只 是 为 了 兼容 才 保留 着 。 新 的 数据 结构 是 
msqid64_ds， 定 义 于 include\asm-i386\msgbuf.h 中 ， 显 然 是 为 64 位 系统 结构 准备 的 。 
.798 . 


oon Do 心 


10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 


40 
4] 
42 
43 
44 
45 
46 
47 
48 
49 
50 


构 中 


BOR 传统 的 Unix 进程 间 通 信 


Pad space is left for: 


struct msqid64_ds { 


struct ipc64 perm msg perm; 


. kernel time t msg stime; 
unsigned long . unusedl; 
. kernel time t msg rtime; 
unsigned long _unused2; 
 . kernel time t msg ctime; 
unsigned long ^ | unused3; 
unsigned long msg cbytes; 
unsigned long msg qnum; 

unsigned long msg qbytes; 
. kernel pid t msg lspid; 


. kernel pid t msg lrpid; 
unsigned long .  unused4; 
unsigned long |  unused5; 


ie 


/* 


/* 


/* 


/* 
/* 
/* 
/水 
/* 


The msqid64 ds structure for i386 architecture. 
Note extra padding because this structure is passed back and forth 
between kernel and user space. 


- 64-bit time t to solve y2038 problem 
- 2 miscellaneous 32-bit values 


last msgsnd time */ 
last msgrcv time */ 
last change time */ 


current number of bytes on queue */ 
number of messages in queue */ 

max number of bytes on queue */ 
pid of last msgsnd */ 

last receive pid */ 


个 过 , 我 们 从 前 面 sys_msgctl( ) 的 调用 参数 表 中 可 以 看 到 在 系统 调用 界面 上 还 在 用 着 msqid ds. ££ 
构 中 msg_cbytes 和 msg_lcbytes， 以 及 msg_qbytes 和 msg Iqbytes 在 逻辑 上 是 相同 的 ， 只 不 过 - -为 无 符 
号 短 整 数 ， 一 为 无 符号 长 整数 。 
当 命令 码 为 IPC_INFO 时 ， 则 buf 指向 一 个 msginfo 结构 (msg.h): 


/* buffer for msgctl calls IPC INFO, MSG INFO */ 


struct msginfo | 
int msgpool; 
int msgmap; 
int msgmax; 
int msgmnb; 
int msgmni; 
int msgssz; 
int msgtql; 
unsigned short  msgseg: 


y 


建议 读者 结合 sys. msgsnd( ) 和 sys msgrev( ) 的 代码 以 及 msg msg 结构 的 定义 ， 看 看 这 两 个 数据 结 


诸 成 分 的 用 途 。 
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函数 sys, msgetl ) 的 代码 不 短 ， 但 是 很 科 单 。 所 以 我 们 把 它 留 给 读者 自己 阅读 ， 也 个 在 这 里 询 出 其 
代码 了 。 但 这 里 只 看 其 中 的 个 片段 (msg.c): 


[sys msgctl( )] 


539 switch (cmd) { 

540 case IPC SRT: 

541 { 

542 if (setbuf. qbytes > msg ctlmnb && ! capable (CAP_SYS_RESOURCE) ) 
543 goto out_unlock_up; 

544 msq->g_qbytes = setbuf. qbytes; 

545 

546 ipcp->uid = setbuf.uid; 

547 ipcp-^?gid = setbuf. gid; 

548 ipcp->mode = (ipcp->mode & ^S IRWXUGO) | 
549 (S IRWXUGO & setbuf. mode) ; 

550 msq-^q ctime = CURRENT TIME; 

551 /* sleeping receivers might be excluded by 
552 * stricter permissions. 

553 */ 

554 expunge all(msq, -EAGAIN) ; 

555 /* sleeping senders might be able to send 
556 * due to a larger queue size. 

557 */ 

558 ss wakeup (kmsq->q_senders, 0) ; 

559 msg_unlock (msqid) ; 

560 break; 

561 } 

562 case IPC_RMID: 

563 freeque (msqid): 

564 break; 

565 } 

566 err = 0; 


这 里 的 setbuf 是 从 用 户 空间 复制 过 来 的 msqid_ds 数据 结构 。 每 当 通 过 IPC_SET 改变 个 报 文 队 记 
的 有 关 参 数 时 ， 由 于 参数 的 改变 而 需要 做 着 件 事 。- - 件 事 是 使 正在 等 待 此 队列 接收 报 文 的 进程 《如 朱 
有 的 话 》 都 出 错 返回 ， 出 错 代码 为 EAGAIN。 这 是 道 过 expunge_all( ) 完 成 的 。 第 一 件 事 是 将 正在 等 竺 
向 此 队列 发 送 报 文 的 进程 (如 果 有 的 话 ) 全 部 唤醒 ， 让 它们 开始 新 轮 党 试 。 这 足 通 过 ss_wakeup( ) 
完成 的 ， 其 代码 前 面 已 经 看 到 过 。 此 处 给 出 函数 expunge_all( ) 的 代 公 Cmsg.c): 


[sys msgctl( ) > expunge_all( )] 


266 static void expunge all(struct msg_queuc* msq, int res) 
267 { 

268 struct list head **tmp; 

269 
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210 tmp = msq->q_receivers. next; 

271 while (tmp != &msq-^q receivers) { 

272 struci msg_receiver* msr; 

2173 

274 msr = list entry(tmp, struct msg receiver,r list): 
275 tmp = tmp-?next; 

276 msr-?»r msg = ERR PTR(res); 

271 wake up process(msr-^r tsk); 

278 ] | 

279 ] 


命令 RMID 则 是 通过 freeqeue( ) 完 成 的 ， 现 在 其 代码 对 于 读者 应 该 已 经 很 简单 了 (msg): 
[sys msgctl( ) > freeque( )] 


281 static void freeque (int id) 


282 { 

283 struct msg queue *msq; 

284 struct list head *tmp; 

285 

286 msq - msg rmid(id); 

287 

288 expunge_all (msg, -EIDRM) : 

289 ss wakeup(&msq-^q senders, 1); 

290 msg_unlock (id) ; 

291 

292 tmp = msq-?q messages. next; 

293 while(tmp !- &msq->q messages) { 

294 struct msg msg* msg = list entry(tmp,struct msg msg,m list); 
295 tmp = tmp-»next; 

296 atomic dec(&msg hdrs); 

297 free msg (msg); 

298 } 

299 atomic_sub(msq->q_cbytes, &msg bytes); 
300 kfree (msq) ; 

301 } 


IHFÉ, freeque( ) 将 所 有 正在 等 待 接收 报 文 的 进程 都 从 接收 队列 里 脱 链 并 唤醒 ， 让 它们 出 错 返 辐 。 
并 通过 ss_wakeup( ), 将 所 有 正在 等 待 发 送 报 文 的 进程 都 从 发 送 队 列 里 脱 链 并 唤醒 , 也 让 它们 出 错 返回 。 
然后 将 队列 中 所 有 报 文 都 脱 链 泊 释放 其 空间 。 最 后 连 报 文 队列 头 也 予以 释放 。 

代码 中 的 msg_rmid( ) 是 个 安定 义 〈msg.c): 


96 #define msg rmid(id) ((struct msg queue*) ipc rmid(&msg ids, id)) 
PR ipc_rmid( ) 的 代码 在 ipc/util.c 中 ， 也 很 简单 : 


[sys msgctl( ) > freeque( ) > msg rmid( ) > ipc_rmid( )] 
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173 / 

174 * ipc_rmid - remove an IPC identifier 

175 * @ids: identifier set 

176 * @id: Identifier to remove 

177 * 

178 * The identifier must be valid, and in use. The kernel will panic if 
179 * fed an invalid identifier. The entry is removed and internal 
180 * variables recomputed. The object associated with the identifier 
181 * is returned. 

182 */ 

183 


184 struct kern ipc perm* ipc rmid(struct ipe ids* ids, int id) 
185 { | 


186 struct kern ipc perm* p; 

187 int lid = id % SEQ MULTIPLIER; 
188 if(lid > ids->size) 

189 BUG ( ) ; 

190 p = ids->entries{lid]. p; 

191 ids->entries[lid].p = NULL; 
192 if (p==NULL) 

193 BUG( ) ; 

194 ids-^in use--; 

195 

196 if (lid == ids->max id) { 

197 do { 

198 lid; 

199 if (lid == -1) 

200 break; 

201 ) while (ids-»entries[lid].p == NULL); 
202 ids-^»max id = lid; 

203 } 

204 return p; 

205 } 


这 里 有 个 问题 ， 被 唤醒 的 进程 会 做 些 什 么 呢 ? 读 者 不 妨 回 过 头 去 看 看 sys msgsnd( ) 和 
sys mshrcv( ) 中 的 代码 (msg.c 中 的 673 行 和 817 行 )， 睡眠 中 的 进程 被 唤醒 ， 并 且 被 调度 运行 而 从 
schedule( ) 返 回 后 ， 还 要 再 调用 msg lock( )， 但 是 那 时 候 就 会 返回 NULL， 从 而 从 sys_msgsnd( ) 或 
sys mshrcv( ) 失 败 返回 了 。 


6.7 共享 内 存 


共享 内 存 ， 顾 名 思 义 就 是 两 个 或 更 多 个 进程 可 以 访问 同一 块 内 存 区 间 ， 使 得 一 个 进程 对 这 块 空间 

中 某 个 单元 内 容 的 改变 可 以 为 其 他 进程 所 “看 ”到 。 共 享 内 存 是 针对 《命名 或 无 名 ) 管道 以 及 其 他 机 

制 运行 效率 比较 低 的 缺陷 而 设计 的 。 虽然 报 文 队 列 比 之 管道 有 了 很 大 的 改进 ， 但 是 从 运行 效 涂 的 角度 

来 说 却 并 无 什么 明显 的 不 同 。 而 共享 内 存 ， 则 由 于 参加 共享 的 各 个 进程 就 像 普 通 访问 内 存 - 样 地 访问 
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所 共享 的 内 存 区 间 ， 其 这 行 时 的 效率 可 以 很 高 。 对 于 某 些 运行 效率 显得 很 关键 的 应 用 来 说 ， 可 能 会 觉 
得 管道 或 报 文 队列 的 速度 太 慢 ， 所 以 宁愿 放 痉 一 些 由 这 些 机 制 所 提供 的 好 处 ， 而 采用 共享 内 存 作为 进 
程 问 通 信 的 手段 。 不 过 ， 应 该 指出 ， 共 享 内 存 是 一 种 很 低级 〈 与 物理 层 很 贴近 ) 的 通信 机 制 ， 所 提供 
的 功能 是 很 有 限 的 ， 所 以 使 用 时 要 特别 小 心 。 

一 般 来 说 ， 一 种 进程 间 通 信 机 制 常常 附加 地 提供 一 些 进程 间 同 步 和 互 斥 的 功能 ， 传 递 的 内 容 也 得 
到 一 定 程度 的 缓冲 。 以 管道 为 例 ， 从 管道 读 的 进程 在 管道 中 无 内 容 可 读 时 就 会 进入 睡眠 等 待 。 同 样 地 ， 
癌 管 道 写 的 进程 在 管道 被 写 满 时 也 会 睡眠 等 待 。 虽然 这 两 个 过 程 从 宏观 上 说 是 并 发 的 ， 代 是 从 微观 上 ， 
也 就 是 从 系统 调用 的 内 部 实现 层次 上 说 ， 却 是 独占 的 、 互 斥 的 ， 因 而 是 “原子 的 ”。 所 以 读 和 写 的 过 程 
通过 内 核 加 以 “ 串 行 化 ”而 不 会 互相 干扰， 同时， 写 入 管道 的 内 容 也 得 到 了 缓冲 。 可 是 共享 内 存 就 不 
IR] f. 不 同 进程 读 / 写 一 块 内 存 空间 的 操作 本 身 就 是 微观 的 、 直 接 的 ， 并 不 通过 系统 调用 来 进行 。 这 样 ， 
就 失去 了 由 内 核 保 证 互 斥 性 的 本能， 进程 间 也 不 会 因此 而 自动 地 得 到 同步 ， 并 且 所 写 的 内 容 在 全 部 完 
成 前 器 立即 可 以 部 分 地 为 其 他 进程 所 “看 ”到 。 举 例 来 党 ， 如 果 进 程 A 向 一 块 共享 内 存 空间 写 一 字符 
R, 在 号 了 一 半 时 就 其 中 斯 而 引起 调度 , 于 是 当 进 程 B 在 进程 A 尚未 完成 整个 字符 串 的 写 入 前 就 来 读 ， 
那 就 会 读 出 这 样 一 个 学 符 串 : 其 前 半 部 是 进程 A 新 写 入 的 ， 可 是 后 半 部 却 是 以 前 某 个 时 候 由 其 他 进程 
写 入 的 。 所 以 ， 共 享 内 存 通 常 要 与 SysV IPC 中 的 另 一 个 机 制 “ 信 和 号 量 ” 结 合 使 用 ， 这 样 才 能 达到 进 
程 间 的 同步 与 互 斥 。 

在 内 核 中 ， 共 享 内 存 机 制 的 如 种 操作 SHMGET、SHMAT、SHMDT 和 SHMCTL， 即 应 用 程序 设 
计 界 面 上 的 库 消 数 shmget( ). shmat( )、shmdt( ) 和 shmctl( )， 分 别 是 由 sys_shmget( )、sys_shmat( )、 
sys shmdt( ) 和 sys_shmetl( ) 实 现 的 。 与 报 义 队列 相似 , 参加 共享 内 存 的 进程 之 一 首先 要 创建 一 个 共享 内 
存 区 ， 然 后 其 他 进程 通过 一 个 共同 的 键 值 取得 它 的 标识 号 。 得 到 了 一 个 共享 内 存 区 的 标识 号 以 后 ， 每 
个 进程 就 可 以 将 此 共享 内 存 区 “挂靠 ”(attach) 到 《实际 上 是 映射 到 ) 它 的 虚 存 空间 ， 然 后 就 可 以 像 
访问 - 般 内 存 一 样 地 访问 这 块 共享 内 存 区 了 。 要 退出 对 此 共享 区 间 的 共享 时 ， 则 可 以 将 其 “脱钩 ” 
Cdettach)， 也 就 是 解除 映射 。 有 关 的 代码 基本 上 都 在 文件 ipc/shm.c 中 。 


6.7.1 库 函 数 shmget( ) 一 一 共享 内 存 区 的 创建 与 寻找 





库 函 数 shmget( )， 即 ipc( ) 系 统 调用 的 SHMGET 操作 是 由 sys_shmget( ) 完 成 的 shm.c); 


224 asmlinkage long sys shmget (key t key, size_t size, int shmflg) 
225 { 


226 struct shmid kernel *shp; 

227 int err, id = 0; 

228 

229 down (&shm_ids. sem) ; 

230 if (key == IPC PRIVATE) { 

231 err = newseg(key, shmflg, size); 

232 } else if ((id = ipc findkey(&shm ids, key)) == -1) { 
233 if (!(shmflg & IPC CREAT)) 

234 err = -ENOENT; 

235 else 

236 err = newseg(key, shmflg, size); 

237 ) else if ((shmflg & IPC CREAT) && (shmflg & IPC EXCL)) { 
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238 
239 
240 
241 
242 
243 
244 
245 
246 
241 
248 
249 
290 
291 
202 
253 


48 
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Linux 内 核 源 代码 情景 分 析 CLE 


err = —EEXIST: 
} else { 
shp = shm lock (id); 
if (shp==NULL) 
BUG( ) ; 
if (shp->shm segsz < size) 
err = —EINVAL; 
else if (ipeperms(&shp-^shm perm, shmflg)) 
err = -EACCES; 
else 
err = shm buildid(id, shp-^shm perm. seq) ; 
shm unlock(id); 
} 
up(&shm ids. sem) ; 
return err; 


与 前 节 中 的 sys_msgget( ).E— IER, SL RIA BU ARAH. TA f] 0 Je ix RB IHE A 
newseg( ), 因为 是 创建 新 的 共享 内 存 区 , ap AERALA BR BASIE, 内核 中 也 有 个 全 局 的 ipe ids 
数据 结构 shm ids: 


static struct ipc ids shm ids; 


如 前 所 述 ，ipc_ids 数据 结构 中 有 个 指针 entries， 指 向 一 个 ipe id 结构 数组 ， 而 每 个 ipc id 结构 中 
则 有 个 指针 p， 指 向 一 个 kern_ipe_perm 数据 结构 。 所 不 同 的 是 ， 在 报 文 队 列 机 制 中 ，kermn_ipc_perm 数 
据 结构 的 “宿主 > 是 msg_queue 数据 结构 , 代表 着 “个 报 文 队列 ; 而 在 共享 内 存 机 制 中 则 是 shmid_kernel 
数据 结构 ， 代 表 着 一 个 共享 内 人 存 区 。 等 :下 读者 就 会 看 到 它 的 定义 。 

同样 键 值 IPC_PRIVATE， 即 0， 是 特殊 的 ， 它 表示 旧 分 陀 一 个 共享 内 存 区 供 本 进程 志 用 。 其 他 键 
值 则 赤 示 要 创建 或 寻找 的 是 “上 共享 ”内 存 区 。 而 标志 位 TPC_CREAT 则 表示 日 的 在 于 创建 。 

国 数 newseg( ) 创 建 一 块 共 序 内 存 区 《shm.e): 


[sys_shmget( ) > newseg( )] 


173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 


static int newseg (key_t key, int shmflg, size t size) 


{ 
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int error; 

struct shmid_kernel *shp; 

int numpages - (size + PAGE SIZE -1) >> PAGE SIIIFT; 
struct file * file; 

char name[l3]; 

int id; 


if (size < SHMMIN |: size > shm ctlmax) 
return -EINVAL; 


if (shm tot + numpages >= shm ctlall) 
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186 return -ENOSPC; 
187 

188 shp = (struct shmid kernel *) kmalloc (sizeof Ckshp), GFP USER); 
189 if (!shp) 

190 return —ENOMEM: 

191 sprintf (name, "SYSVXOSx", key); 

192 file - shmem file setup(name, size): 
193 error = PTR ERR(file): 

194 if (IS ERR(file)) 

195 goto no file; 

196 

197 error = —ENOSPC; 

198 id = shm addid (shp) : 

199 if (id == -1) 

200 goto no_id; 

201 shp->shm_perm. key = key; 

202 shp->shm_flags = (shmflg & S_IRWXUGO) ; 
203 shp-^shm cprid = current->pid; 

204 shp-^shm lprid = 0; 

205 shp-^shm atim = shp->shm dtim = 0: 

206 shp-^shm ctim = CURRENT TIME; 

207 shp- >shm segsz = size; 

208 Shp-^shm nattch = 0: 

209 shp-^id = shm buildid(id, shp-^shm perm. seq) ; 
210 shp-^shm file = file; 

211 file->f_dentry—>d_inode->i_ino = shp~>id; 
212 file-^f op = &shm file operations; 

213 shm tot += numpages; 

214 shm unlock (id); 

215 return shp->id: 

216 

217 no id: 

218 fput (file); 

219 no file: 

220 kfree (shp) : 

221 return error; 

222 } 





首先 根据 共享 区 的 大 小 计算 出 所 需 的 存储 页 面 数量 numpages， 接 着 是 对 资源 数量 的 一 些 检查 。 代 
人 码 中 的 shm_tot 和 shm ctlall 都 是 全 局 量 , 分 别 用 来 记录 当前 已 经 用 二 共享 内 存 机 制 的 页 面 数 及 其 上 限 。 
一 个 全 局 量 shm._ctlmax 给 出 了 对 每 个 共享 内 存 区 大 小 的 限制 。 每 个 共享 内 存 区 都 有 个 区 名 ， 由 前 组 
SYSV 和 键 值 的 8 位 16 进 制 数 表 示 构 成 。 

在 内 核 中 ， 每 个 共享 内 存 区 都 由 个 控制 结构 ， 即 shmid_kernel 数据 结构 代表 ， 定 义 于 ipe/shme: 


29 struct. shmid kernel /* private to the kernel */ 
30 { 
3l struct kern ipc perm shm perm; 
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32 struct file * shm file; 
33 int id; 

34 unsigned long shm nattch; 
35 unsigned long shm segsz; 
36 time t shm atim; 

37 time t shm dtim; 

38 time t shm ctim; 

39 pid t shm cprid; 
40 pid t shm liprid; 
41 B 


显然 ,这 个 数据 结构 与 用 于 报 文 队 刘 的 msq. queue 相似 , 它 的 第 一 个 结构 成 分 也 是 个 kern. ipe perm 
结构 。 可 是 ， 这 里 有 个 file 结构 指针 shm_file。 为 什么 在 代表 共享 内 存 区 的 数据 结构 中 有 指向 file 结构 
的 指针 呢 ? 

共享 内 存 区 中 的 页 面 也 和 普通 的 页 面 一 样 ， 受 到 内 存 页 面 管理 机 制 的 调度 ， 根 据 实际 的 需要 而 换 
出 / 换 入 。 不 同 的 是 ， 普 通 的 页 面 都 换 出 到 通用 的 页 面 交 换 设备 〈 或 文件 ) 上 ; 而 共享 内 存 区 则 各 日 仅 
立 专用 的 映射 文件 ， 以 共享 内 存 区 的 区 名 作为 文件 名 。 这 样 ， 就 把 共享 内 存 区 与 第 2 章 中 的 文件 映射 
联系 在 -起 了 。 文件 映射 机 制 成 了 实现 共享 内 存 区 的 基础 ， 而 共享 内 存 区 则 成 了 文件 映射 的 -项 应 用 。 
因此 , 对 于 每 个 进程 , 参与 共享 的 内 存 区 就 好 像 已 经 建立 的 文件 映射 一 样 , 可 以 通过 特殊 文件 系统 /proc 
中 的 路 径 /proc/<pid>/maps 观察 其 状态 这 里 <pid> 表 示 具 体 的 进程 号 )。 

为 此 , 内 核 中 专门 设置 了 一 种 特殊 文件 系统 “shm”, 其 类 型 为 shmem_fs_type, 定义 于 mm/shmem.c: 





702 static DECLARE FSTYPE(shmem fs type, “shm”, shmem read super, FS_LITTER) ; 
编译 时 会 把 宏 定 义 DECLARE_FSTYPE 展开 如 下 〈 参 说 “文件 系统 ”一 章 中 的 有 关内 容 ): 


struct file system type shmem fs type = | 


name: shm”, 
read super: shmem read super, 

fs flags: FS LITTER, 

owner: THIS MODULE, 
kern mnt: NULL 


} 


系统 在 初始 化 时 会 通过 ken mount ) 安 装 这 个 特殊 文件 系统 , 并 在 devfs 特殊 文件 系统 中 创建 起 一 
AF ASH shm。 这 是 在 init_shmem_fs( ) 中 完成 的 ， 代 码 见 mm/shmem.c: 


704 static int | init init_shmem_fs (void) 


705 { 

106 int error; 

707 struct vfsmount * res; 

708 

709 if ((error = register filesystem(&shmem fs type))) { 
710 printk (KERN ERR “Could not register shmem fs\n”) ; 
Til return error; 
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712 } 

713 

714 res = kern_mount (&shmem_fs type); 

715 if (IS ERR (res)) | 

716 printk (KERN ERR "could not kern mount shmem fsWn^); 
717 unregister filesystem(&shmem fs type): 
718 return PTR ERR (res): 

719 ) 

720 

721 devfs_mk dir (NULL, ”shm”, NULL): 

122 return 0; 

723 ë } 


先 通过 kern_mount( ) 安 装 特殊 文件 系统 shm. SR Irv, WREE AAA ERE T REE devfs, 就 在 /dev 
日 录 〈 这 是 devfs 的 安装 点 ) 下 建立 一 个 了 目录 shm， 作 为 所 有 共享 内 存 区 文件 的 且 隶 。 我 们 在 特殊 文 
件 /proc 一 节 中 讲 过 ，kern_mount( ) 只 是 为 -… 个 特殊 文件 系统 建立 起 作为 一 个 已 安装 文件 系统 所 需 的 所 
有 数据 结构 ， 包 括 超级 块 以 及 dentry 结构 、inode 结构 、 还 有 vfsmount 结构 ， 并 使 file_system_type 结 
构 《〈 在 这 里 是 shmem_fs_type〉 中 的 指针 kem_mnt 指向 其 vfsmount 结构 。 但 是 却 并 没有 真 的 将 这 个 文 
件 系统 “安装 ”在 某 个 安装 点 上 。 换 言 之 ， 并 没有 使 这 个 特殊 文件 系统 落实 到 哪 一 个 有 形 的 文化 系统 ， 
项 外 部 设备 上 。 对 于 像 管 道 一 类 无 形 又 无 名 的 文件 系统 这 是 没有 问题 的 ， 因 为 管道 文件 实际 上 只 存在 
于 内 存 中 ， 本 来 就 不 需要 落实 到 外 部 设备 上 。 可 是 ， 对 于 /proc 文件 系统 就 得 要 在 kern_mount( ) 以 后 再 
具体 安装 一 次 ， 将 其 安装 在 /proc 节点 |， 这 样 才能 使 其 变 成 有 名 而 可 以 通过 路 径 名 寻访 。 所 以 像 /proc 
那样 的 特殊 文件 系统 的 FS. SINGLE 标志 位 为 1。 用 十 共享 内 存 区 的 文件 系统 shm 则 又 不 同 了 ， 这 种 文 
件 是 有 形 的 ， 需 要 在 文件 中 实际 地 存储 数据 ， 所 以 更 是 必须 落实 到 某 个 物理 的 外 设 上 才 行 。 另 一 方面 ， 
共享 内 存 区 文件 只 对 系统 的 当前 运行 有 意义 ，“ 旦 关机 就 失去 了 意义 而 不 应 继续 存在 ， 下 一 次 安装 时 
应 该 从 空白 开始 ， 所 以 不 适合 放 在 普通 的 文件 系统 中 。 考 虑 到 这 个 特点 ， 显 然 最 合适 的 是 把 shm 落实 
到 页 面 交 换 豆 区 中 。 下 面谈 者 就 会 看 到 ， 这 一 点 已 经 实现 在 shm 的 驱动 程序 中 。 所 以 ，shm 文件 系统 
在 kem_mount( ) 以 后 ， 不 需要 像 /proc 文件 系统 邦 样 再 来 安装 一 次 , 它 的 FS_SINGLE 标志 位 为 0。 至 于 
HY FS_LITTER 标志 位 为 1 CO, 702 行 )， 则 正 是 表示 把 这 种 文件 系统 拆卸 下 来 时 要 丢弃 其 所 有 的 资 
源 (包括 在 /dev/.devfsd 目录 下 的 文件 节点 )。 

这 样 ， 建 立 共享 内 存 区 的 问题 就 转变 成 了 在 特殊 文件 系统 “shm” 中 建立 喘 射 文件 的 问题 。 这 是 由 
shmem_file_setup() 完 成 的 ， 其 代码 在 mm/shmem.c 中 : 








[sys shmget( ) > newseg( ) > shmem file setup( )] 


800 /* 

801 * shmem file setup - get an unlinked file living in shmem fs 
802 * 

803 * Gname: name for dentry (to be scen in /proc/<pid>/maps 
804 * (size: size to be set for the file 

805 * 

806 */ 

807 struct file *shmem file setup(char * name, loff t size) 

808 { 
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809 int error; 

810 struct file *file; 

811 struct inode * inode; 

812 struct dentry *dentry, *root; 

813 struct qstr this; 

814 int vm enough memory (long pages); 

815 

816 error = —ENOMEM; 

817 if (lvm enough memory ((size) >> PAGE SITIFT)) 
818 goto out; 

819 

820 this.name - name; 

821 this.len = strlen(name); 

822 this. hash = 0; /* will go */ 

823 root = shmem fs type.kern mnt-^mnt root; 
824 dentry = d alloc(root, &this); 

825 if (!dentry) 

826 goto out; 

827 

828 error = —ENFILE; 

829 file = get empty filp( ); 

830 if (!file) 

831 goto put dentry; 

832 

833 error = -ENOSPC; 

834 inode = shmem get inode(root-^d sb, S IFREG | S IRWXUGO, 0); 
835 if (!inode) 

836 goto close file; 

837 

838 d instantiate(dentry, inode) ; 

839 dentry->d_inode->i_ size = size; 

840 file>f vfsmnt = mntget(shmem fs type. kern_mnt) ; 
RAI file-^f dentry - dentry; 

842 file->f op = &shmem file operations; 

843 file->f mode = FMODE WRITE | FMODE READ; 
844 inode->i nlink = 0; /* It is unlinked */ 
845 return (file); 

846 

847 close file: 

848 put filp(file); 

840 pul. dentry: 

850 dput (dentry); 

851 out: 

852 return ERR PTR(error); 

853 |] 


前 面 讲 过 ， 每 个 共享 内 存 区 都 有 个 区 名 ， 区 名 中 包含 着 它 的 键 值 ， 这 个 区 名 就 被 出 作文 件 名 。 我 们 
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把 这 段 程序 留 给 读者 阅读 。 旧 说明 的 起 ,shmem_fs_type.ker_rmnt->mnt_root 指向 sam 文件 系统 的 dentry 
结构 本 身 ， 所 以 文件 建立 在 shm 的 根 节 点 下 。 虽 然 这 里 在 内 存 中 建立 起 了 文件 的 dentry 结构 和 inode 
结构 ， 这 些 数据 结构 的 内 容 却 不 需要 写 到 磁盘 上 去 ， 上 因为 “ 瑟 关 机 ， 这 些 数据 结构 的 内 容 就 失去 意义 
了 。 这 里 的 842 行将 指针 file->f_op 设置 成 指向 file operations 结构 shmem_file_operations， 而 在 返回 到 
newseg( ) 中 以 后 义 在 212 行将 其 设置 成 指向 shm, file operations. 3X M4 Xr Zá Jd e Hxc EE mmap 1 
作 的 ， 但 一 个 是 shmem mmap( )， 而 另 :个 是 shm_mmap( )。 两 个 数据 结构 分 别 定义 在 mm/shmem.c 
和 ipc/shm.c F: 


662 static struct file operations shmem file operations - | 


663 mmap: shmem mmap 

664  ]; 

163 static struct file operations shm file operations - | 
164 mmap: shm_mmap 

165^ Jy 


函数 shmem_file_setup( ) 并 不 光 是 在 newseg( )- Mba H VEAL, ERREA KeK AHTI E 
要 ， 所 以 才 会 在 shmem_file_setup( ) 中 把 file->f op 设置 成 指向 shmem_file_operations， 而 在 返回 到 
newseg( ) 中 以 后 又 改 成 指 癌 shm_file_operations. PAL shm_mmap( ) 和 shmem_mmap ) 的 区 别 在 于 ， 前 
者 所 实现 的 二 有 形 的 shm 文件 ， 所 以 支持 open 和 close 操作 ， 而 后 者 所 实现 的 是 无 形 的 shm 文件 ， 不 
能 通过 路 径 名 来 打开 ， 所 以 不 支持 open 和 close 操作 。 

此 外 ， 对 shm 节点 的 inode 结构 也 有 些 特 丈 的 设置 ， 所 以 通过 一 个 特殊 的 负数 shmem_get_inode ( ) 
米 分 配 和 设置 inode 数据 结构 。 其 代码 在 mm/shmem.c 中 : 


[sys shmget( ) > newseg( ) > shmem_get_inode ( )] 


341 struct inode *shmem_get_inode (struct super block *sb, int mode, int dev) 
342 | | 

343 struct inode * inode; 

344 

345 spin lock (&sb->u. shmem sb. stat lock); 

346 if (!sb->u. shmem_sb. free inodes) { 

347 spin unlock (&sb-^u. shmem sb.stat lock); 
348 return NULL; 

349 ) 

350 sb-^u. shmem sb. free inodes--; 

351 spin unlock (&sb->u. shmem sb. stat lock); 

352 

353 inode = new inode(sb): 

354 if (inode) { 

355 inode->i mode = mode; 

356 inode-»i uid = current >fsuid; 

357 inode-^i gid = current >fsgid; 

358 inode->i blksize = PAGE CACHE SIZE; 
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359 inode->i_blocks = 0; 

360 inode->i rdev = to_kdev_t (dev) ; 

361 inode->i_mapping->a_ops = &shmem_aops; 

362 inode->i atime = inode-^i mtime = inode->i_ctime = CURRENT TIME; 
363 spin lock init (&inode—>u. shmem_i. lock) ; 

364 switch (mode & S_IFMT) | 

365 default: 

366 init special inodc(inode, mode, dev); 

367 break; 

368 case S IFREG: 

369 inode->i_ op = &shmem inode operations; 

370 inode-^i fop = &shmem file operations; 

371 break; 

372 case S IFDIR: 

373 inode-^i op = &shmem dir inode operations; 
374 inode-^i fop = &shmem dir operations; 

S f break; 

376 case S IFLNK: 

377 inode->i_op = &page symiink inode operations; 
378 break; 

379 } 

380 spin lock (&shmem ilock); 

381 list add (&inode-^u. shmem_i. list, &shmem inodes); 
382 spin unlock (&shmem_ilock) : 

383 } 

384 return inode; 

385 } 


这 里 有 几 点 特殊 之 处 。 首 先是 参数 dev 为 0， 央 而 inode 结构 中 的 i_rdev 也 是 0， 因 为 这 个 inode 
结构 并 没有 相应 的 磁 息 上 索引 节 上 点。 其次， 这 个 inode 结构 的 i mapping-»a ops 1H [m 
address space. operations 数据 结构 的 shmem_aops， 定 义 于 mm/shmem.c F: 


658 static struct address space operations shmem aops = | 
659 writepage: shmem writepage 
660 } 


这 个 数据 结构 提供 的 共享 内 存 区 的 页 面 换 出 操作 .此 外 , 根据 节点 的 性 质 , inode 结构 中 的 指针 i op 
Wii fop 也 分 别 设置 成 指向 不 同 的 inode_operations 结构 和 file operations 结构 。 最 后 ， 内 核 中 为 shm X 
件 系统 提供 了 一 个 专用 的 inode 结构 队列 shmem_inodes， 所 有 用 于 shm 文件 系统 的 inode 结构 都 通过 
一 个 专用 的 队列 头 挂 在 这 个 队列 中 。 所 以 不 管 在 什么 时 候 都 能 找到 属于 shm 文件 系统 的 所 有 inode Zi 
构 。 

回 到 newseg( ) 的 代码 中 ， 用 于 共享 内 存 区 页 面 换 出 / 换 入 的 义 件 已 经 创建 并 打开 。 这 个 已 打开 文件 
有 个 file 结构 ， 但 是 却 不 像 - 般 已 打开 文件 的 file 结构 那样 属于 某 个 特定 的 进程 ， 也 不 像 - 般 file 结构 
那样 代表 一 个 具体 文件 的 读 / 写 上 下 文 ， 因 为 对 共享 内 存 区 的 访问 完全 是 随机 的 ， 没 有 上 下 文 的 概念 。 
同时 ， 对 于 这 个 file 结构 也 不 能 像 对 一 般 己 打开 文件 那样 通过 一 个 已 打开 文件 福来 访问 ， 因 为 所 谓 已 
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打开 文件 号 是 个 局 部 进程 的 概念 ， 而 不 是 全 局 的 概念 。 从 代码 中 可 以 看 到 ， 指 向 这 个 file 的 指针 就 保 
存在 具体 共享 内 存 区 的 shmid_kernel 数据 结构 中 ，shmid_kernel 结构 既然 代表 着 一 个 共享 内 存 区 ， 当 然 
也 就 代表 着 它 所 映射 的 文件 。 
为 一 个 共享 内 存 区 分 配 了 shmid, kernel 数据 结构 以 后 ,还 要 使 它 与 全 局 的 ipc_ids 数据 结构 shm_ids 
挂 上 钓 ， 所 以 在 回 到 newseg( ) 中 以 后 要 通过 shm_addid( ) 来 建立 起 这 种 联系 (ipc/shm.c): 


[sys shmget( ) > newseg( ) > shm addid ( )] 


89 static inline int shm addid(struct shmid kernel *shp) 


90 { 
91 return ipc addid(&shm ids, &shp-^5shm perm, shm ctlmni*l); 
92 } 


全 于 ipe addid( ) 的 代码 ， 读 者 已 经 在 前 一 节 《 报 文 队 列 ) 中 读 过 。 用 于 共享 内 存 区 的 shm ids 与 
用 十 报 文 队列 的 msg. ids 类 型 相同 , 而 共享 内 存 区 的 shmid_kernel 结构 中 的 第 一 个 成 分 shm_perm 也 是 
个 kern_ipc_perm 结构 ， 它 的 起 始 地 址 就 是 整个 shmid_kernel 结构 的 起 始 地 址 。 此 外 ，shm_ctlmni 也 与 
msg ctlmni 一 样 ， 是 个 对 shm_ids 中 数组 大 小 的 控制 量 。 

至 此 ， 共 享 内 存 区 的 创建 就 基本 完成 了 。 函 数 newseg( ) 和 sys_shmget( ) 中 其 余 的 代码 比较 简单 ， 
我 们 把 它 留 给 读者 。 

最 后 ，sys_shmget( ) 也 和 sys msgget( ) 一 样 ， 返 回 所 创建 共享 内 存 区 的 一 体 化 标识 号 。 那 是 由 
shm_buildid( ) 计 算 的 。 


55 define shm buildid(id, seq) ^ 
56 ipc buildid(&shm ids, id, seq) 


读者 已 经 在 前 一 节 《 报 文 队 列 ) PRE ipe. buildid( ) 的 代码 。 
在 一 个 共享 内 存 区 创建 以 后 ， 参 加 进来 共享 的 进程 则 使 用 其 键 值 通过 findkey( ) 找 到 作为 ipc_id 结 
构 数 组 下 标的 标识 号 ， 然 后 将 其 换算 成 一 个 一 体 化 的 标识 号 ， 那 就 与 sys msgget( ) 的 处 理 过 程 一 样 了 。 


6.7.2. ERA shmat( ) 一 一 建立 共享 内 存 区 的 映射 


通过 shmget( ) 以 给 定 键 值 创建 了 一 个 共享 内 存 区 ， 或 者 取得 了 已 创建 共享 内 存 区 的 标识 号 以 后 ， 
还 要 通过 shmat( ) 将 这 个 内 存 区 映射 到 本 进程 的 虚 存 空间 ， 此 外 ,一 个 已 经 映射 的 共享 内 存 区 间 也 可 以 
iat shmat( ) 改 变 其 映射 。 这 都 是 由 sys_shmat( ) 完 成 的 ， 其 代码 在 ipc/shm.c 中 。 我 们 分 段 阅 读 ; 


553 /* 

554 * Fix shmaddr, allocate descriptor, map shm, add attach descriptor to lists. 
555 */ 

556 asmlinkage long sys shmat (int shmid, char *shmaddr, int shmflg, ulong *raddr) 
557 { 

508 struct shmid kernel *shp; 

559 unsigned long addr; 

560 struct file * file; 
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561 int err; 

562 unsigned long flags; 

563 unsigned long prot; 

564 unsigned long o flags; 

565 int acc mode; 

566 void *user addr; 

567 

568 if (shmid < 0) 

569 return -EINVAL; 

570 

571 if ((addr = (ulong)shmaddr)) | 
572 if (addr & (SHMLBA-1)) { 

573 if (shmflg & SHM_RND) 

574 addr &= ^(SHMLBA-1) ; /* round down */ 
575 else 

576 return -EINVAL ; 

577 } 

578 flags = MAP SHARED | MAP FIXED; 
579 } else 

580 flags = MAP SHARED; 

581 

582 if (shmflg & SHM RDONLY) | 

583 prot = PROT READ; 

584 o flags = O RDONLY; 

585 acc mode = S IRUGO; 

586 } else { 

587 prot = PROT READ | PROT WRITE; 
588 o flags = O RDWR; 

589 acc mode = S IRUGO | S IWUGO; 
590 } 

591 


参数 shmaddr 为 当前 进程 所 要 求 映 射 的 目标 地 址 ， 也 就 是 映射 后 该 共享 内 存 区 .在 这 个 进程 的 用 户 
空间 中 的 起 始 地 址 。 这 个 地 址 一 般 应 该 能 被 一 个 常数 SHMLBA ER ARE 
include/asm-i386/shmparam.h 中 定义 为 PAGE, SIZE, 所 以 实际 上 这 意味 着 与 页 面 的 边界 对 齐 。 如果 调用 
参数 shmaddr 不 能 被 SHMLBA 整除 ， 就 要 将 shmflg 中 的 SHM_RND 标志 设 成 1， 这 样 sys_shmat( ) 就 
会 自动 将 此 地 址 加 以 调整 ( 见 573—574 行 )。 参 数 shmaddr 也 可 以 是 0， 内 核 会 根据 当前 进程 的 虚 存 空 
间 使 用 情况 为 其 分 配 一 个 。 从 代码 中 可 以 看 出 ， 在 这 两 种 情况 下 ,将 flags 中 的 MAP. FIXED 标志 位 分 
别 设置 成 1 和 0, 以 后 将 根据 这 个 标志 位 作 相 应 的 处 理 。 此外, 还 要 将 参数 shmflg 中 的 SHM_RDONLY 
标志 位 转换 成 若干 用 于 内 存 映 射 和 文件 访问 的 标志 ， 因 为 对 共享 内 存 区 的 管理 涉及 这 两 个 方 徊 。 我 们 
继续 往 下 看 : 


[sys_shmat( )] 


592 /* 
593 * We cannot rely on the fs check since SYSY IPC does have an 
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594 * aditional creator id... 
595 */ 

596 shp = shm lock(shmid):; 

597 if (shp == NULL) 

598 return -EINVAL; 

599 if (ipcperms (&shp >shm_perm, acc mode)) { 
600 shm unlock (shmid) ; 

601 return -EACCES; 

602 } 

603 file = shp->shm file: 

604 shp-^shm nattch* *; 

605 shm unlock (shmid) ; 

606 


参数 shmid 为 共享 内 存 区 的 一 体 化 标识 号 ， 通 过 shm lock ) 就 可 以 找到 代表 这 个 共享 内 存 芭 的 
shmid kernel 数据 结构 ， 并 且 加 锁 。 可 想 而 知 ，shm_lock( ) 与 前 - - 节 中 的 msg lock ) 应 该 很 相似 。 事 实 


50  #define shm_lock (id) ((struct shmid kernel*)ipc lock(&shm ids, id)) 


找到 了 日 标 共享 区 并 将 其 锁 住 以 后 ， 就 来 检查 访问 权限 ， 函 数 ipcperms( ISNA cs. deu 
内 存 区 访问 权限 的 管理 与 文件 系统 访问 权限 的 答 理 相似 ， 读 者 可 参阅 第 5 章 中 有 关 的 内 容 。 通 过 了 对 
访问 权限 的 检验 ， 就 进入 实质 性 的 阶段 了 : 


[sys_shmat( )] 


607 down (&current—>mm->mmap_sem) ; 

608 user addr = (void *) do mmap (file, addr, file-^f dentry-5d inode—i size, 
prot, flags, 0); 

609 up(&current-^mm-^mmap sem); 

610 

611 down (&shm ids. sem) ; 

612 if(! (shp = shm lock(shmid))) 

613 BUG ( ); 

614 shp-?shm nattch--; 

615 if(shp-^shm nattch -= 0 && 

616 shp->shm_ flags & SHM DEST) 

617 shm destroy (shp); 

618 shm unlock (shmid); 

619 up (&shm ids. sem) ; 

620 

621 *raddr - (unsigned long) user addr; 

622 err = 0; 

623 if (IS ERR(user addr)) 

624 err = PTR ERR (user addr); 

625 return err; 
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从 代码 中 可 见 ， 实 质 性 的 操作 就 是 通过 do mmap( ) 建 立 起 文件 与 虚 企 空间 的 映射 。 这 个 函数 的 代 
码 已 经 在 第 2 章 中 阅读 过 了 ， 读 者 不 妨 回 过 去 复习 F. Pi, E do mmap ) 的 执行 过 程 中 有 一 些 根 
据 具体 条 件 执 行 的 操作 ， 有 必要 结合 建立 共享 内 存 区 这 人 么 一 个 具体 的 情景 再 把 这 个 过 程 走 一 遍 ， 并 作 
些 补充 的 说 明 。 

在 do mmap( ) 中 ， 先 对 文件 和 区 间 两 方面 都 作 一 些 检 查 ， 包 括 起 始 地 址 与 长 度 、 已 经 映射 的 次 数 
等 等 ， 然 后 进一步 调用 do_mmap_pgoff( ) 建 立 映射 。 


[sys shmat( ) > do mmap( ) > do mmap pgoff( )] 


188 unsigned long do mmap pgoff(struct file * file, unsigned long addr, 
unsigned long len, 

189 unsigned long prot, unsigned long flags, unsigned long pgoff) 

190 { 


/* 对 访问 权限 等 等 的 检查 */ 


250 /* Obtain the address to map to. we verify (or select) it and ensure 
251 * that it represents a valid section of the address space. 
252 */ 

253 if (flags & MAP FIXED) { 

254 if (addr & "PAGE MASK) 

255 return -EINVAL; 

256 } else { 

257 addr = get_unmapped_area(addr, len); 

258 if (laddr) 

259 return —ENOMEM; 

260 } 


前 面 讲 过 ， 如 果 在 调用 shmat( ) 时 的 参数 shmaddr 为 0， 则 在 sys shmat( ) 中 将 flags 中 的 标志 位 
MAP FIXED 设 成 0， 表 示 应 由 内 核 给 分 配 一 个 。 现 在 就 通过 get unmapped area( KUNST. Pj 
数 get_unmapped_area( ) 的 代码 在 mm/mmap.c 中 : 


[sys_shmat( ) > do, mmap( ) > do. mmap. pgoff( ) > get unmapped area( )] 


374 /* Get an address range which is currently unmapped. 

375 * For mmap( ) without MAP FIXED and shmat( ) with addr=0. 

316 * Return value 0 means ENOMEM. 

377 */ 

378 #ifndef HAVE ARCH UNMAPPED AREA 

379 unsigned long get_unmapped_area (unsigned long addr, unsigned long len) 
380 { 

381 struct vm area struct * vmm; 

382 
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383 if (len > TASK SIZE) 

384 return 0; 

385 if (!addr) 

386 addr = TASK UNMAPPED BASE; 

387 addr = PAGE ALIGN (addr) ; 

388 

389 for (vmm = find vma(current-^mm, addr); ; vmm = vmm-^vm next) { 
390 /* At this point: (!vmm || addr < vmm vm end). */ 
391 if (TASK SIZE - len < addr) 

392 return 0; 

393 if (!vmm || addr + len <= vmm->vm start) 

394 return addr: 

395 addr = vmm-^vm end; 

396 } 

397 } 

398 Hendif 


谈 者 目 行 阅 读 这 段 程序 应 该 不 会 有 困难 。 这 里 的 常数 TASK UNMAPPED BASE 是 在 
include.asm-i386/processor.h 中 定义 的 : 


263 /* This decides where the kernel will search for a free chunk of vm 
264 * space during mmap' s. 

265 */ 

266 #define TASK UNMAPPED BASE (TASK SIZE / 3) 


也 就 是 说 ， 当 给 定 的 目标 地 址 为 0 时， 内核 从 “TASK_SIZE/3) BI 1GB 处 开始 向 上 在 当前 进程 的 
虚 存 空间 中 寻找 一 块 足以 容纳 给 定 长 度 的 区 间 。 而 当 给 定 的 目标 地 址 不 为 0 时 ， 则 从 给 定 的 地 址 开始 
向 上 寻找 。 函数 find. vma( ) 在 当前 进程 已 经 映射 的 虚 存 空间 中 找到 第 个 满足 vma -> vm_end， 即 大 于 
给 定 地 址 的 区 间 。 如 果 找 不 到 这 么 一 个 区 间 。 那 就 说 明 给 定 的 地 址 尚未 映射 ， 因 而 可 以 使 用 ;或 者 ， 
如 条 所 找到 区 间 的 起 始 地 址 高 于 给 定 地址 加 给 定 区 间 长 度 ， 那 就 说 明 在 所 找到 区 闻 之 下 有 个 足够 大 的 
空洞 ， 因 此 也 可 以 使 用 给 定 的 地 址 。 

至 此 ， 只 要 返回 的 地 址 非 0，addr 就 已 经 是 一 个 符合 各 种 要 求 的 虚 存 地 址 了 。 我 们 回 到 
do mmap pgoff( ) 中 继续 往 下 看 (mm/mmap.c): 


[sys_shmat( ) > do mmap( ) > do mmap. pgoff( )] 


262 /* Determine the object being mapped and call the appropriate 
263 * specific mapper. the address has already been validated, but 
264 * not unmapped, but the maps are removed from the list. 

265 */ 

266 vma = kmem cache alloc(vm area cachep, SLAB KERNEL); 

267 if (!vma) 

268 return —ENOMEM; 

269 

210 vma-»vm mm = mm; 

271 vma-»vm start = addr; 
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272 vma~>vm end = addr + len; 

273 vma->vm_flags = vm_flags (prot, flags) | mm->def_flags; 

274 

275 if (file) { 

276 VM ClearReadHint (vma) ; 

277 vma-?vm raend = Q; 

278 

279 if (file->f_mode & FMODE READ) 

280 vma-»vm flags |= VM MAYREAD | VM MAYWRITE | VM, MAYEXEC; 

281 if (flags & MAP. SHARED) { 

282 vma-»vm flags |= VM SHARED | VM MAYSHARE; 

283 

284 /* This looks strange, but when we don't have the file open 
285 * for writing, we can demote the shared mapping to a simpler 
286 * private mapping. That also takes care of a security hole 
287 * with ptrace( ) writing to a shared mapping without write 
288 * permissions. 

289 * 

290 * We leave the VM MAYSHARE bit on, just to get correct output 
291 * from /proc/xxx/maps.. 

292 */ 

293 | if (! (rile >f mode & FMODE WRITE)) 

294 vma:»vm flags &- "(VM MAYWRITE | VM SHARED); 

295 } 

296 } else { 

297 vma->vm flags |= VM MAYREAD | VM MAYWRITE | VM MAYEXEC; 

298 if (flags & MAP SITARED) 

299 vma-^vm flags |= VM SHARED | VM MAYSHARE; 

300 } 

301 vma—>vm_ page prot = protection map[vma-^vm flags & Ox0f]; 

302 vma->vm_ops = NULL; 

303 vma->vm pgoff — pgoff; 

304 vma-»vm file = NULL; 

305 vma-»vm private data = NULL; 

306 


每 个 虚 存 区 间 都 要 有 个 vm. area, struct 数据 结构 , 所 以 通过 kmem cache, alloc( ) 为 待 映射 的 区 间 分 
fic 个， 并 加 以 设置 。 如 果 调 用 do: mmap. pgoff ) 时 的 file 结构 指针 为 0, 则 目的 仅 存 于 创建 虚 存 区 间 ， 
或 者 说 仅 在 十 建立 从 物理 空间 到 虚 存 区 间 的 映射 。 测 如 果 晶 的 在 于 建立 从 文件 到 虚 存 区 间 的 映射 ， 那 
就 时 把 为 文件 设置 的 访问 权限 考察 进去 。 侍 此， 代表 着 我 们 所 瑚 虚 人 存 区 间 的 数据 结构 已 经 创建 了 《不 
过 尚未 插入 代表 着 当前 进程 虚 存 空间 的 mm_struct 结构 中 )。 可 是 , 在 其 些 条 件 下 却 偿 不 得 不 将 它 撤 销 。 
为 什么 呢 ? 我 们 继续 往 下 看 : 


[sys_shmat( ) > do_mmap( ) > do mmap pgoff( )] 
307 /* Clear old maps */ 
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308 error = —ENOMEM; 

309 if (do munmap(mm, addr, len)) 

910 goto free vma; 

all 

312 /* Check against address space limit. */ 

313 if ((mm->total_vm << PAGE SHIFT) ' len 

314 > current-^rlim[RLIMIT AS]. rlim cur) 

315 goto free vma; 

316 

317 /* Private writable mapping? Check memory availability.. */ 
318 if ((vma-^?vm flags & (VM SHARED | VM WRITE)) -- VM WRITE && 
319 ! (flags & MAP. NORESERVE) && 

320 !vm enough memory(len >> PAGE SHIFT)) 

321 goto free vma; 

322 


在 付 么 条 件 下 要 把 已 经 创建 《但 是 尚未 生效 ) 的 vm. area. struct 数据 结构 撤销 呢 ? 首先 ， 这 里 调用 
Y —^ 8X do_munmap( )。 它 检查 目标 地 址 在 当前 进程 的 虚 存 空间 是 否 忆 经 在 使 用 , 如果 已 经 在 使 用 ， 
就 要 将 老 的 映射 去 除 ， 将 老 的 区 间 释 放 。 要 是 这 个 操作 失败 ， 堵 当然 不 能 重复 映射 同 -- 个 月 标 地 址 ， 
所 以 就 得 转移 到 free_vma， 把 已 经 分 配 的 vm. area struct 数据 结构 撤销 。 函 数 do_munmap( ) 的 代码 在 
mm/mmap.c 中 ， 读 者 已 经 在 第 2 章 中 读 过 它 的 代码 。 也 许 读者 会 感到 奇怪 ， 这 个 区 间 不 是 在 前 面 调 用 
get unmapped area( ) 找 到 的 吗 ? 怎么 可 能 会 原来 就 已 有 映射 了 呢 ? 回 过 头 去 注意 看 -下 就 可 知道 ， 邦 
只 是 当 调 用 参数 shmaddr 为 0 时 的 情况 ， 调 当 shmaddr 不 为 0 时 则 尚未 对 此 加 以 检查 。 

除 此 之 外 ,还 有 两 个 情况 也 会 导致 撤销 已 经 分 配 的 vm_area_struct 数据 结构 。 一 个 是 如 果 当 前 进程 
对 虚 存 空 间 的 使 用 超出 了 为 其 设置 的 上 限 (313—315 行 )。 另 :个 是 在 要 求 建 立 由 当前 进程 专用 的 可 写 
多 间 ， 而 物理 页 面 的 数量 已 经 (暂时 ) 不 足 (318 一 321 行 )。 

读者 也 许 还 要 问 : 为 什么 不 把 对 所 有 条 件 的 从 验 放 在 分 配 vm. area, struct 数据 结构 之 前 呢 ? 问题 在 
于 ,在 通过 kmem_cache_alloc( ) 分 配 vm area. struct 数据 结构 的 过 程 中 ， 有 可 能 会 发 生 供 这 种 数据 结构 
专用 的 slab 已 经 用 完 ， 而 不 得 不 补 双 分 配 更 多 物理 页 面 的 情况 。 而 分 配 物理 页 击 的 过 程 ， 则 义 有 可 能 
因 一 时 不 能 满足 要 求 而 上 只好 先 调度 别 的 进程 运行 。 这 样 ， 当 前 进程 从 kmem cache alloc( ) 返 回 时 ， 可 
能 已 经 有 别 的 进程 或 线程 ， 特 别 是 由 本 进程 clone( ) 出 来 的 线程 运行 过 了 ， 所 以 就 不 能 排除 这 些 条 件 已 
经 改变 的 可 能 。 所 以 ， 读 者 在 内 核 中 常常 能 看 到 先 分 配 革 项 资源 ， 然 后 检测 条 件 ， 如 果 条 件 不 符 再 将 
资源 释放 而 不 是 先 检测 条 件 ， 后 分 配 资源 ) 的 情景 。 关 键 就 在 于 分 配 资源 的 过 程 中 是 否 有 可 能 发 生 
调度 ， 以 及 其 他 进程 或 线程 的 运行 有 否 可 能 改变 这 些 条件 。 以 这 里 的 第 三 个 条 件 为 例 ， 如 果 发 尘 过 调 
度 ， 那 就 显然 是 可 能 改变 的 。 

继续 往 下 看 do_mmap_pgoff( ) 的 代码 Cmm/mmap.c): 


[sys shmat( ) > do_mmap( ) > do mmap. pgoff( )] 


323 if (file) { 

324 if (vma-^vm flags & VM DENYWRITE) | 
325 error = deny write access(file); 
326 if (error) 

327 goto free vma; 
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328 correct_wcount = 1; 

329 } 

330 vma-»vm file = file; 

331 get file(file); 

332 error = file— f op-^mmap(file, vma); 
333 if (error) 

334 goto unmap and free vma; 
335 } else if (flags & MAP SHARED) | 
336 error = shmem zero setup(vma); 
337 if (error) 

338 goto free vma; 

339 } 

340 


如 果 要 建立 的 是 从 文件 到 虚 存 区 间 的 映射 ， 而 在 调用 do mmap( ) 时 的 参数 flags 中 的 
MAP DENYWRITE 标志 位 为 1〈 这 个 标志 位 在 前 面 273 行 引 用 的 宏 操作 vm flags( ) 中 转换 成 
VM_DENYWRITE )， 那 就 表示 不 允许 通过 当 规 的 文件 操作 对 此 文件 进行 号 访问 ， 所 以 要 调用 
deny write access( ) 排 斥 常规 的 文件 抬 作 ， 详 见 “ 文 件 系统 ”一 章 中 的 有 关内 容 。 对 于 shm 文件 ， 读 者 
可 以 在 sys_shmat( ) 的 代码 中 看 出 这 个 标志 位 一 定 是 0， 所 以 不 存在 这 个 问题 。 这 是 因为 对 shm 文件 本 
来 就 不 允许 按 常 规 的 可 写 文件 打开 。 

函数 get_file( ) 的 作用 只 是 递增 file 结构 中 的 共享 计数 。 

每 种 文件 系统 都 有 个 file operations 数据 结构 ， 其 中 的 函数 指针 mmap 提供 了 建立 从 该 类 文件 到 虚 
存 区 间 的 映射 的 操作 。 我 们 在 前 面 已 经 看 到 过 shm 文件 系统 的 file_operations 数据 结构 ,， 它 只 提供 一 种 
文件 操作 ， 那 就 是 mmap， 具 体 的 函数 是 shm_mmap( )。 其 代码 在 ipc/shm.c 中 : 


[sys shmat( ) > do mmap( ) > do mmap pgoff( ) > shm_mmap( )] 


155 static int shm mmap(struct file * file, struct vm area struct * vma) 
156 { 

157 UPDATE_ATIME (file->f_dentry—>d_inode) ; 

158 vma~>vm_ ops = &shm vm ops; 

159 shm_inc(file->f_dentry—>d_inode->i ino); 

160 return 0; 

161 } 


这 个 函数 非常 简单 ， 实 质 性 的 操作 其 实 只 有 一 行 ， 那 就 是 158 行将 虚 存 区 间 控 制 结构 中 的 指针 
vm, ops 设置 成 指向 数据 结构 shm_vm_ops。 这 个 结构 的 定义 为 ; 


167 static struct vm operations struct shm vm ops = { 

168 open: shm_open, /* callback for a new vm-area open */ 

169 close: shm close, /* callback for when the vm-area is released */ 
170 nopage: shmem nopage, 

171 ki 


读者 也 许 感 到 困惑 ， 在 文件 与 虚 存 区 间 之 间 建 立 映射 难道 就 这 么 简单 ? 其 实 ， 具 体 的 映射 是 非常 
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动态 、 经 常 在 变 的 。 所 谓 文 件 与 虚 存 区 间 之 间 的 映射 包含 着 两 个 环节 ， 一 是 物理 页 面 与 文件 映 象 之 间 
的 换 入 / 换 出 ， 二 是 物理 页 面 与 虚 存 页 面 之 间 的 映射 。 这 二 者 都 是 很 动态 的 ， 所 以 ， 重 要 的 并 不 是 建立 
起 一 个 特定 的 映射 ， 而 是 建立 起 一 套 机 制 ， 使 得 一 旦 需要 时 就 可 以 根据 当时 的 具体 情况 建立 起 新 的 映 
射 。 另 一 方面 ， 在 计算 机 技术 中 有 一 个 称 尺 "lazy computation ”的 概念 ， 就 是 说 有 些 为 将 来 作 某 种 准 
备 而 进行 的 操作 (计算 ) 应 该 推迟 到 真正 需要 时 才 进 行 。 这 是 因为 实际 运行 中 的 情况 千变万化 ， 有 时 
候 花 了 老大 的 劲 才 完 成 了 准备 ， 实 际 上 却 根本 没有 用 到 |， 或 者 只 用 到 了 很 小 -部 分 ， 从 而 造成 了 浪费 。 
就 以 这 里 共享 内 存 区 的 映射 来 说 ， 也 许 上 共享 区 的 大 小 是 100 个 页 面 ， 而 实际 上 在 相当 长 的 时 间 里 只 
到 了 其 中 的 一 个 页 面 ， 而 映射 99 个 页 面 的 开销 都 不 是 可 以 忽略 不 计 的 。 何 况 ， 长 期 不 用 的 页 面 还 得 费 
劲 把 它们 换 出 哩 。 考 虑 到 这 些 因素 ， 还 不 如 到 真正 需要 用 到 一 个 页 面 时 再 来 建立 其 映射 ， 用 到 几 个 页 
面 就 映射 几 个 页 面 。 当 然 ， 邦 样 很 可 能 会 因为 分 散 处 理 而 使 具体 映射 每 -个 页 面 的 开销 增加 ， 所 以 这 
里 有 个 权衡 利 浆 的 问题 ， 其 体 的 决定 往往 要 建立 在 统计 的 基础 上 。 这 里 ， 对 才 共 享 内 存 区 的 映射 正 是 
运用 了 这 个 概念 ， 把 具体 页 面 的 映射 推迟 到 了 真正 需要 的 时 候 才 进行 。 具体 地 ， 就 是 为 物理 页 面 的 换 
入 以 及 为 映射 的 建立 而 准备 的 下 一 个 函数 ， 这 就 是 shm_nopage( ))。 等 一 下 我 们 还 会 回 到 这 个 话题 上 
来 。 

FS do_mmap_pgoff( ) 的 代码 中 ， 把 共享 内 存 区 的 vm. area. struct 结构 插入 当前 进程 的 虚 存 空间 |， 
味 完 成 了 共享 内 存 区 映射 机 制 的 建立 ， 虽然 具体 页 面 的 映射 都 尚未 建立 。 

回 到 sys shmat( ) 的 代码 。 最 后 通过 参数 raddr 返回 实际 的 映射 地 址 。 至 此 ，sys_shmat( ) 的 操作 就 
基本 完成 了 ， 给 定 的 共享 内 存 区 已 经 纳入 了 当前 进程 的 存储 空间 ，。 

如 前 所 述 ， 在 sys_shmat( ) 中 实际 上 并 没有 建立 页 面 的 映射 ， 而 是 把 它 推迟 到 了 实际 需要 的 时 候 。 
所 以 ， 在 将 一 块 共享 内 存 区 纳入 一 个 进程 的 存储 空间 以 后 ， 当 其 中 的 任何 一 个 页 面 首次 受到 访问 时 就 
会 因为 “ 缺 页 ”而 产生 一 次 页 面 异 常 。 读者 不 妨 回 到 第 2 Ep, M do page fault( ) 开 始 ， 顺 着 
handie_mm_fault(). handle pte fault( )， 一 直到 do no page(). ft do_no_page( ) 中 ， 如 果 产 牛 异常 的 地 
址 所 属 区 间 的 指针 vm. ops 指向 一 个 vm operations struct 数据 结构 ， 并 县 该 结构 中 的 函数 指针 nopage 
非 零 ， 就 会 调用 这 个 了 数 来 建立 所 在 页 而 的 映射 表 项 。 下 面 是 do_no_page( ) 中 的 一 个 片段 


[do page fault( ) > handle mm fault( ) » handle pte fault( ) > do no. page( )] 


1097 if (!vma—vm ops || !vma-?vm ops-^nopage) 

1098 return do anonymous page (mm, vma, page table, write access, address); 
1099 

1100 /* 

1101 * The third argument is ^no share", which tells the low-level code 
1102 * to copy, not share the page even if sharing is possible. It’s 
1103 * essentially an early COW detection. 

1104 */ 

1105 new page = vma-»vm ops—^nopage(vma, address & PAGE MASK, 


(vma-^vm flags & VM SHARED)? O:write access); 


1123 entry = mk pte(new page, vma->vm_ page proi); 


1129 set pte(page table, entry); 


读者 在 前 面 已 经 看 到 ,对 于 共享 内 存 区 内 的 页 面 ， 这 个 指针 指向 shmem_nopage( )。 其 代码 在 shm.c 
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中 ， 我 们 又 得 分 段 来 看 : 


[do page. fault( ) > handle mm fault( ) > handle pte fault( ) > do no page( ) > shmem_nopage( )] 


237 /* 
238 * shmem nopage ~ either get the page from swap or allocate a new one 
239 * 
240 * If we allocate a new one we do not mark it dirty. That's up to the 
241 * vm. Tf we swap it in we mark it dirty since we also free the swap 
242 * entry since a page cannot live in both the swap and page cache 
243 */ 
244 struct page * shmem nopage (struct vm_area_struct * vma, 
unsigned long address, int no_share) 
245 | 
246 unsigned long size; 
247 struct page * page; 
248 unsigned int idx; 
249 swp entry t *entry; 
250 struct inode * inode = vma~>vm file->f_dentry~>d_inode; 
251 struct address space * mapping = inode->i_mapping; 
252 struct shmem_inode info *info; 
253 
254 idx = (address - vma->vm_start) >> PAGE SHIFT; 
255 idx += vma—>vm_pgoff; 
256 
257 down (&inode->i sem); 
258 size = (inode->i size + PAGE CACHE SIZE - 1) >> PAGE CACHE SHIFT; 
259 page = NOPAGE SIGBUS; 
260 if ((idx >= size) && (vma->vm_mm == current—>mm)) 
261 goto out; 
262 
263 /* retry, we may have slept */ 
264 page = __ find lock page(mapping, idx, page hash (mapping, idx)); 
265 if (page) 
266 goto cached page; 
267 
268 info = &inode-?u. shmem 1; 
269 entry = shmem swp entry (info, idx); 
270 if (tentry) 
211 goto oom; 


先 计 算出 真 面 在 所 映射 文件 ， 即 共享 内 存 区 内 的 页 面 号 idx。 如 果 某 个 (进程 的 ) EXE RE (r£ DCTRI TS 
整个 共享 内 存 区 之 间 有 位 移 ， 就 要 把 位 移 也 考虑 进去 (255 行 )。 算 出 页 面 号 以 后 ， 就 可 以 通过 
— find lock page( ) 在 杂 凌 表 队 列 中 寻找 该 页 面 的 page Z4. SI TESI, 那 就 说 明 这 个 页 面 已 经 在 内 
存 中 的 页 面 缓冲 队列 里 ， 只 此 重建 映射 就 可 以 了 。 和 否则 ， 就 此 通过 shmem_swp_entry( ) 进 一 步 确定 这 个 
页 面 是 从 未 映射 ， 还 是 已 经 换 出 到 交换 珊 区 上。 这 个 函数 的 代码 在 mm/shmem.c 中 ， 这 是 了 解 共享 内 
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存 区 内 页 面 换 出 / 换 入 操作 的 关键 。 


[do page fault( ) > handle mm fault( ) > handle pte fault( ) > do_no_page( ) > shmem_nopage( ) 


> shmem_swp_entry( )] 


static swp entry t * shmem_swp entry (struct shmem inode info *info, 
unsigned long index) 


16 
17 
18 
19 
20 
2l 
22 
23 
24 
25 
26 
27 


{ 


} 


if (index < SHMEM_NR_DIRECT) 
return info->i_direct+index; 


index -= SHMEM NR DIRECT; 
if (index >= ENTRIES PER PAGE*ENTRIES PER PAGE) 
return NULL; 


if (!info-^i indirect) { 
info-^i indirect = (swp eniry t **) get zeroed page(GFP USER); 
if (linfo-^i indirect) 
return NULL; 
} 
if (! (info i indirect[index/ENTRIES PER PAGE])) { 
info->i_indirect/index/ENTRIES PER PAGE] = 
(swp_entry_t *) get zeroed page (GFP USER); 
if (!info->i indirect[index/ENTRIES PER PAGE]) 
return NULL; 


return info >i_indirect[index/ENTRIES PER PAGE] + indexWENTRIES PER PAGE; 


读者 人 在 “文件 系统 ”一 章 中 已 经 知道 ，inode 结构 中 有 个 union， 根 据 文 件 系统 的 不 同 而 解释 成 不 
间 的 数据 结构 。 对 于 shm 文件 系统 ， 这 个 union 解释 成 shmem_inode info 数据 结构 ， 定 义 丁 
include/linux/shmem_fs.h P: 


typedef struct { 


unsigned long val: 


} swp entry t; 


struct shmem inode info { 


spinlock t lock; 

swp entry t i direct[SHMEM NR DIRECT]; /* for the first blocks */ 
swp eniry t — ^**i indirect; /* doubly indirect blocks */ 

unsigned long swapped; 

int locked; /* into memory */ 

struct list head list; 


- 82] . 


Linux 内 核 源 代码 情景 分 析 《上 册 》 


结构 中 引用 的 类 型 swp_entry_t 实际 上 就 是 32 位 无 符号 整数 ， 若 为 非 0 就 表示 :个 页 面 在 交换 


设备 上 的 页 面 号 。 数 组 i_direct[ ] 代 表 着 一 个 共享 内 存 区 的 开头 16 个 页 面 ， 即 64K FT 
(SHMEM_NR_DIRECT 定义 为 16)。 对 十 一 般 的 共享 内 存 区 ， 这 个 大 小 已 经 够 了 。 如 果 不 够 ,就 通过 
指针 i indirect 引入 间接 映射 ， 这 个 指针 指向 一 个 用 作 指 针 数 组 的 上 页面。 页 面 中 是 1024 个 指针 ， 每 个 
指针 又 指向 另 一 个 用 作 swp_entry_t 数组 的 页 面 ， 每 个 负面 中 可 以 容纳 1024 项 swp_entry_t。 这 样 ， 总 
的 潜在 的 容量 是 IM 个 页 面 ， 即 AG u^! 显然 ， 这 种 机 制 与 Ext2 文件 系统 的 多 重 间接 映射 相似 ， 但 
要 简单 一 些 。 原因 是 这 些 数据 结构 和 数组 个 需 些 存储 在 磁盘 上 。 函数 shmem_swp_entry( ) 返 回 指向 目标 
swp. entry. t 项 的 指针 。 这 个 指针 不 应 为 0。 WO 时 就 说 明 分 配 不 到 用 于 间接 映射 的 负面 , 所 以 转向 oom 
作 “Out-OfMemory” 出 错 处 理 。 只 要 这 个 指针 有 效 ， 根 据 swp_entry_t 的 内 容 就 可 以 判断 页 面 是 否 在 
交换 设备 上 。 我 们 继续 往 下 看 ; 


[do_page_fault( ) > handle mm. fault( ) > handle pte fault( ) > do. no page( ) > shmem_nopage( )] 


212 
273 
274 
275 
276 
277 
278 
279 
280 
281 
282 
283 
284 
285 
286 
287 
288 
289 
290 
291 
292 


293 
294 
295 
296 
297 


if (entry->val) { 


unsigned long flags; 


/* Look it up and read it in.. */ 
page = lookup swap cache (*entry) ; 
if (!page) | 

lock kernel( ); 

swapin readahead (*entry) ; 

page = read swap cache (entry) ; 

unlock kernel ( ); 

if (!page) 

goto oom; 


} 


/* We have to this with page locked to prevent races */ 

spin lock (&info->lock) ; 

swap_free (*entry) ; 

lock page (page) ; 

delete from swap cache nolock (page) ; 

*eniry = (swp entry t) {0}; 

flags - page->flags & ~((1 << PG uptodate) | (1 << PG error) | 
(1 << PG referenced) : (1 << PG arch_1)); 

page->flags = flags | (1 << PG dirty); 

add to page cache locked(page, mapping, idx); 

info-^swapped--; 

spin unlock (&info->lock) ; 


] else { 


如 果 月 标 swp. entry. 项 的 值 为 非 0， 就 表示 目标 页 面 在 父 换 设备 上 ， 所 以 妥 把 负面 换 入 。 对 十 汰 


真 阅读 过 第 2 章 中 有 关 换 出 / 换 入 操作 的 读者 ， 余 下 的 代码 已 经 不 难 理 解 了 。 不 过 要 注意 291 行 ， 在 把 
目标 页 面 读 入 内 存 以 后 ， 这 里 把 页 面 的 swp_entry_t 项 清 0， 就 是 说 ， 一 个 页 面 的 swp_entry_t 项 为 0， 
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既 可 以 表示 页 面 从 未 映射 ， 也 可 以 表示 该 页 面 在 内 存 中 。 这 样 做 并 无 不 有 要， 因为 如 果 页 面 在 内 存 中 就 
“ 定 在 缓冲 队列 中 ， 前 面 的 __find_lock_page( ) 就 应 成 功 ， 或 者 根本 就 不 会 发 生 缺 页 异常 ， 而 不 会 到 达 
上 面 的 268 行 了 。 
我 们 继续 往 下 看 swp_entry_t 的 值 为 0 时 的 情景 : 


[do_page_fault( ) > handle mm fault( ) > handle pte fault( ) > do_no_page( ) > shmem_nopage( )] 


297 | else { 

298 spin lock (&inode—>i_sb->u. shmem_sb. stat lock); 
299 if (inode-^i sb-^u. shmem sb. free blocks == 0) 
300 goto no_space; 

301 inode->1_sb->u. shmem sb. free blocks--; 

302 spin unlock (&inode->i_sb-—>u. shmem sb. stat lock); 
303 /* Ok, get a new page */ 

304 page = page cache alloc( ); 

305 if (!page) 

306 goto oom; 

307 clear user highpage(page, address); 

308 inode-»i blocks-**; 

309 add to page cache (page, mapping, idx); 

310 } 

311 /* We have the page */ 

312 SetPageUptodate (page); 

313 

314 cached page: 

315 UnlockPage (page); 

316 up(&inode-^i sem); 

317 

318 if (no share) { 

319 struct page *new page = page cache alloc( ); 
320 

321 if (new page) { 

322 copy user highpage(new page, page, address); 
323 flush page to ram(new page); 

324 } else 

325 new page = NOPAGE OOM; 

326 page cache release(page); 

321 return new page; 

328 } 

329 

330 flush page to ram (page); 

331 return(page); 

332 no space: 

333 spin unlock (&inode->i_sb->u. shmem sb.stat lock); 
334 oom: 

335 page = NOPAGE 00M; 

336 out: 
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337 up (&inode->i_sem) ; 
338 return page; 
339 | 


既然 执行 到 了 272 行 ， 而 目标 swp_entry_t 项 的 值 又 为 0， 那 就 只 有 -个 解释 ， 就 是 目标 页 面 从 未 
映射 过 。 所 以 ， 这 里 通过 page_cache_alloc( ) 分 配 “个 空闲 内 存 页 面 ， 并 道 过 clear_user_highpage( ) 将 该 
页 面 清 成 全 0， 再 将 其 链 入 缓冲 页 面 队 询 中 。 

至 此 ， 当 执行 到 标号 cached page 处 时 ， 我 们 要 么 从 缓冲 页 面 队列 里 找到 了 用 标 页 面 ， 要 人 么 已 经 新 
分 配 了 一 个 空闲 页 面 并 已 将 其 链 入 缓冲 页 面 队 列 。 此 时 还 要 考虑 旬 一 个 特殊 情况 ， 那 就 是 如 果 调 用 
shmem_nopage( ) 时 的 参数 no. share {F 0 (H do_no_page( ) 中 的 1105 行 )， 则 表示 页 面 所 在 的 虚 存 区 间 
实际 上 不 允许 共享 , 此 时 需 此 通过 copy_user_highpage( ) 为 日 标 页 而 , 复制 - 份 由 当前 进程 专用 的 副本 。 
最 后 ， 将 指向 日 标 页 面 page 结构 或 其 副本 的 指针 返回 给 do_no_page( )， 由 do_no_page( ) 仁 当前 进程 的 
页 面 映射 表 中 建立 起 映射 。 

还 要 说 明 -点 特殊 之 处 。 读 者 在 第 2 章 中 看 到 ， 对 于 普通 的 存储 空间 映射 ， 当 一 个 页 面 的 映射 断 
开 时 ， 即 物理 页 面 不 在 内 存 时 ， 相 应 页 面 映 射 表 项 中 的 了 P 标志 位 为 0， 但 是 整个 表 项 并 不 是 0， 此 时 的 
表 项 指明 了 页 面 的 去 向 。 但 是 ， 对 于 通过 do mmap ) 建 立 的 文件 映射 ， 却 不 需要 由 页 面 映 射 表 中 的 表 
项 来 指明 页 面 的 去 向 ， 所 以 当 页 面 不 在 内 存 中 时 友 项 的 内 容 为 全 0〈 参 看 第 2 章 中 try_to_swap_out( ) 
的 有 关 代 码 ， 特 别 吓 83, 125, 135 以 及 101—107 行 )。 对 十 普通 文件 的 映射， 文件 的 inode 结构 中 已 
经 提供 了 所 需 的 全 部 信息 ， 包 括 文件 的 内 容 存储 在 呢 一 个 设备 上 ， 目 标 页 面 又 映射 到 设备 上 的 哪 几 个 
记录 块 。 对 于 共享 内 存 区 文件 ， 其 inode 结构 同样 也 提供 了 所 天 的 全 部 信息 ， 只 不 过 文件 的 内 容 总 是 存 
储 在 交换 设备 |:， 并 且 映 射 的 方式 也 略 有 个 同 出 已 。 

建立 起 对 共享 内 存 区 页 面 的 喘 射 以 后 ， 有 关 的 进程 就 可 以 像 对 一 般 存 储 页 面 … 样 地 读 写 。 每 当 访 
问 ， 个 上 页面 时 ，CPU 中 的 德 件 保证 了 将 相应 页 而 表 项 中 的 _PAGE_ACCESSED 标志 位 设 成 1， 如 采 息 
写 访 问 划 还 要 将 _ PAGE_DIRTY 标志 位 也 设 成 1。 通过 检查 页 面 表 项 中 的 这 些 标 志 位 ， 束 趾 以 知道 参与 
共享 的 各 个 进程 是 否 访 问 了 这 个 页 面 ， 以 及 是 否 号 访问 。 





圭 来 看 页 面 的 换 出 。 在 第 2 章 中 ， 读 背 看 到 内 核 线程 kswapd( ) 通 过 一 个 函数 page_launder( JAF 
inactive dirty list 队列 ， 将 已 经 受到 过 写 访 问 ， 但 是 已 经 不 活跃 的 页 面 与 到 父 换 设备 或 者 文件 中 去 。 除 
kswapd( ) 以 外 ， 另 一 个 内 核 线程 bdflush( ) 也 会 调用 page_launder( ), 还 有 设备 驱动 层 的 block_write( )， 
block read( ), bread( ) 以 及 ext2_getblk( ) 等 也 数 也 会 通过 getblk( ) 和 refill freelist( )， 加 转 地 调用 
page_launder( )。 所 以 ，page_launder( ) 受 到 调用 的 机 会 是 很 多 的 。 下 面 是 page_launder( ) 中 的 一 个 片段 : 


[kswapd( ) > do. try to free pages( ) > page_launder( )] 


537 /水 

538 * Dirty swap-cache page? Write it out if 

539 * last copy.. 

540 */ 

541 if (PageDirty(page)) { 

542 int (*writepage) (struct page *) = page-^mapping-^a ops-?writepage; 
543 int result; 

544 
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545 if (!writepage) 

546 goto page active; 

547 

561 result = writepage (page); 
571 } 


对 十 共 全 内存 区 的 页 面 ， 写 入 的 日 标 是 文件 ， 但 是 这 个 文件 在 交换 设备 上。 读者 在 第 2 章 中 看 到 ， 
页 面 的 page 数据 结构 中 有 个 指针 mapping， 指 向 一 个 address space 数据 结构 ， 这 个 数据 结构 通常 就 在 
负面 属 文件 的 inode 结构 内 部 。 在 address space 结构 里 面 有 三 个 队列 头 ， 即 clean pages. dirty. pages 
以 及 locked. pages; 属于 同 … 文 件 的 ” 脏 ” 页 面 都 挂 企 这 个 文件 的 dirty. pages 队列 中 。 同 时 ,address_space 
结构 里 面 又 有 个 指针 a_ops， 指 向 所 属 文件 系统 的 address_space_operations， 这 是 在 创建 具体 文件 的 
inode 结构 时 设置 好 了 的 。 对 于 shm 文件 系统 ， 这 个 数据 结构 是 shmem_aops， 它 提供 了 shm 文件 系统 
的 writepage 函数 shmem_writepage( )， 其 代码 在 mm/shmem.c 中 : 


[kswapd( ) > do try to free pages( ) > page launder( ) > shmem writepage( )] 





194 /* 

195 * Move the page from the page cache to the swap cache 
196 */ 

197 static int shmem writepage (struct page * page) 
198 { 

199 int error; 

200 struct shmem inode info *info; 

: 201 swp entry t *entry, swap; 

202 

203 info = &page->mapping-—>host~>u. shmem i; 

204 if (info—>locked) 

205 return 1; 

206 swap = . get swap page(2); 

207 if (!swap. val) 

208 return l; 

209 

210 spin lock(&info-»lock); 

211 entry > shmem swp eniry (info, page->index) ; 
212 if (lentry) /* this had been allocted on page allocation */ 
213 BUG( ) ; 

214 error - -EAGAIN; 

215 if (entry->val) 1 

216 __ swap free(swap, 2); 

217 goto out: 

218 } 

219 

220 *entry = swap; 

221 error = 0; 
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222 /* Remove the from the page cache */ 
223 iru cache del (page) ; 

224 remove inode page (page) ; 

225 

226 /* Add it to the swap cache */ 
227 add to swap cache(page, swap); 
228 page cache release (page) ; 

229 set page dirty (page) ; 

230 info->swapped+t; 

231 out: 

232 spin_unlock (&info—>lock) ; 

233 UnlockPage (page) ; 

234 return error; 

235 } 


这 里 通过 _get_swap_page( MARRS LAM 个 页 面 。 注 意 这 里 的 调用 参数 为 2， 表 示 应 将 所 
分 配 的 页 面 的 使 用 计数 设置 成 2， 而 不 是 要 分 配 两 个 页 面 。 接 着 ,根据 物理 页 面 号 ， 通 过 
shmem_swp_entry( ) 在 文件 的 swp_entry_t 表 中 找到 相应 的 表 项 。 如果 表 项 的 内 容 为 非 0, 就 表示 这 个 页 
面 在 交换 设备 上 已 经 有 对 应 页 面 了 ， 所 以 此 时 要 通过 swap_free ) 归 还 刚才 分 配 到 的 盘 上 页 面 。 

然后 ， 把 页 面 从 LRU 队列 中 脱 链 ， 转 移 到 交换 设备 的 换 出 队列 swapper_space 中 ， 并 且 将 其 page 
结构 中 的 指针 mapping 设置 成 指向 swapper_space。 这 么 - -来 ， 当 page_launder( ) 再 次 扫描 到 这 个 页 面 
时 ， 它 的 writepage 函数 就 变 成 由 swapper_space 通过 swap_aops 提供 的 swap_writepage( ) 了 。 此 后 的 操 
作 就 与 普通 页 面 的 换 出 完全 相同 了 ， 因 为 这 些 页 面 同样 是 以 交换 设备 为 目标 的 。 为 方便 读者 阅读 ， 我 
们 在 这 里 列 出 两 个 有 关 的 函数 : 


[kswapd( ) > do_try_to_free_pages( ) > page launder( ) > swap_writepage( )] 


20 static int swap_writepage (struct page *page) 


21 { 

22 rw swap page (WRITE, page, 0); 
24 return 0; 

24] 


[kswapd( ) > do to free pages( ) > page launder( ) > swap writepage( ) > rw swap. page( )] 


107 void rw swap page(int rw, struct page *page, int wait) 


108 { 

109 swp_ entry t entry; 

110 

111 entry. val = page-^index; 
112 

113 if (!PageLocked (page) ) 
114 PAGE BUG (page); 

115 if (!PageSwapCache (page) ) 
116 PAGE BUG (page) ; 
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117 if (page->mapping !- &swapper space) 
118 PAGE_BUG (page) ; 
119 if (!rw swap page base(rw, entry, page, wailt)) 
120 UnlockPage (page) ; 
121 } 
再 往 下 就 是 设备 驱动 的 事 了 。 


读者 大 概 注意 到 了 ，shm_vm_ops 中 还 有 其 他 两 个 指针 open 5 closet 也 部 是 有 定义 的 。 这 是 为 什 
么 呢 ? 我 们 在 sys shmget( ) 和 sys shmat ( ) 的 代码 中 都 没有 看 到 调用 它 的 open 操作 啊 ? 答案 是 ， 这 是 
在 fork ) 一 个 进程 的 过 程 中 使 用 的 《shm.c): 


1275 /* This is called by fork, once for every shm attach. */ 
1276 static void shm open (struct vm area struct *shmd) 


1277 { 
1278 shm inc (shmd->vm_file->f dentry >d_inode->i_ino); 
1279 } 


当 fork( ) 一 个 进程 时 ， 要 把 父 进程 的 每 个 vm_area_struct 数据 结构 部 复制 到 子 进程 路 。 对 于 代表 着 
一 个 共享 内 存 人 区 的 vm_area_stmct 来 说 ,还 要 将 它 链 入 到 所 属 共 享 内 存 区 数据 结构 中 的 一 个 队列 attaches 
中 ， 这 是 与 普通 虚 存 区 间 不 同 的 地 方 。 所 以 要 为 之 提供 一 个 函数 shm_open( ) 来 完成 此 项 操作 。 读 者 可 
以 参阅 第 4 章 中 有 关 do_fork( ) 的 一 节 ， 顺 着 do_fork( )，copy_mm( li dup_mmap( ) 的 路 线 ， 最 后 进入 
dup_mmap( )。 在 那里 读者 可 以 看 公 这 么 几 行 〈fork.c): 


[sys fork( ) > do fork( ) > copy mm( ) > dup_mmap( )] 


171 /* Copy the pages, but defer checking for errors */ 
172 retval = copy page range(mm, current->mm, tmp); 

173 if (!Iretval && tmp->vm ops && tmp—>vm_ops->open) 
174 tmp—>vm_ops—>open (tmp) ; 


WU bi, BOARS Hil HORA vm area struct 结构 tmp 的 vm ops 指针 指向 一 个 vm operations struct 
数据 结构 ， 并 且 该 结构 中 的 指针 open 非 零 ， 就 调用 这 个 函数 。 在 这 里 ， 就 是 调用 shm_open( ), 3618635 
享 内 存 区 所 映射 文件 的 共享 计数 。 与 此 相 类 似 ， 当 一 个 进程 exit( ) 时 ， 要 释放 其 所 有 的 虚 存 区 问 。 如 果 

个 虚 存 区 间 实 际 上 是 一 个 共享 区 ， 就 会 调用 shm_close( ) 递减 这 个 计数 。 


6.7.3 ERX shmdt() 一 一 撤销 共享 内 存 区 的 映射 


一 个 进程 在 通过 SHMAT 操作 与 一 个 共享 内 存 区 挂 上 钧 并 建立 起 映射 以 后 ， 就 可 以 像 对 普通 内 存 
空间 一 样 通过 虚 存 地 址 访问 这 块 空间 。 当 不 再 需要 这 块 空 间 时 ， 可 以 通过 系统 调用 ipc( ) 的 SHMDT 操 
作 与 之 脱钩 ， 具 体 由 sys_shmdt( ) 完 成 。 此 外 ， 一 个 刚 fork( ) 出 来 的 了 进程 在 开始 执行 一 个 新 的 程序 时 
也 要 释放 从 父 进程 复制 下 来 的 各 个 虚 存 区 间 。 如 果 一 个 虚 存 区 间 实 际 代 表 痢 “个 共享 内 存 区 的 话 ， 就 
会 通过 数据 结构 shm_vm_ops 中 的 指针 close HHI shm_close( )， 在 那里 也 蓝 执 行 类 似 的 操作 。 

函数 sys_shmdt( ) 的 代码 比较 简单 Cshm.c): 
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629 /* 

630 * detach and kill segment if marked destroyed. 

631 * The work is done in shm close. 

632 */ 

633 asmlinkage long sys, shmdt (char *shmaddr) 

634 | 

635 struct mm struct *mm = current—>mm; 

636 struct vm area struct *shmd, *shmdnext; 

637 

638 down (&mm- >mmap sem); 

639 for (shmd = mm-^mmap; shmd; shmd = shmdnext) | 

640 shmdnext = shmd-^vm next; 

641 if (shmd-^vm ops == &shm vm ops 

642 && shmd-^vm start - (shmd-^vm pgoff << PAGE SHIFT) == (ulong) shmaddr) 
643 do munmap(mm, shmd-^vm start, shmd-^vm end - shmd-?vm start); 
644 } 

645 up (&mm—>mmap_ sem); 

646 return 0; 

647 } 


其 主体 是 do_munmap( )， 我 们 已 在 第 2 SMES. Waitt, f+ vm area struct 数据 结 
构 代 表 着 -- 个 独立 的 虚 存 区 间 ， 而 属性 不 同 的 区 间 邮 使 地 址 连续 也 分 篇 不 同 的 独立 虚 仓 区 间 ， 由 不 同 
的 vm area. struct 数据 结构 代表 。 而 vm operations struct 数据 结构 为 shm_vm_ops， 则 正 是 用 十 共 至 内 
存 区 的 独立 区 间 的 特征 。 另 一 方面 ， 与 “个 共享 内 存 区 脱钩 必须 是 与 整个 共享 内 存 区 脱 多 ， 而 不 是 所 
的 -部 分 。 所 以 共享 内 存 区 的 起 始 地 址 必须 与 一 个 虚 存 区 间 的 实际 起 始 地 址 相符 。 


6.7.4 ERA shmctl( ) 一 一 对 共享 内 存 区 的 控制 与 管理 





像 报 文 队列 一 样 ， 对 共享 内 存 区 也 可 以 通过 系统 调用 ipe ) 的 SHMCTL 操作 加 以 控制 ， 或 收集 其 
状态 及 统计 信息 。 函 数 sys shm WRR, i BTA SysV IPC 机 制 在 这 方面 基本 上 都 一 样 。 
例如 都 是 通过 IPC RMID 命令 撤消 项 设施 ， 所 以 我 们 不 在 这 里 列 出 其 代 公 了 ， 只 是 提 一 下 其 特殊 之 
处 。 
对 十 一 块 共享 内 存 区 ， 可 以 在 SHMCTL 操作 中 分 别 通 过 SHM_LOCK 和 SHM UNLOCK Waar 
令 来 加 锁 和 去 锁 ， 也 就 是 禁 上 和 恢复 该 区 间 的 各 个 页 面 换 出 或 换 入 操作 。 显 然 ， 这 要 由 共享 内 存 和 页 
面 换 出 / 换 入 两 个 机 制 相互 配合 才能 实现 。 

通过 SHMCTL 操作 对 共享 内 存 区 加 锁 时 ， 方面， 在 共享 内 存 区 的 shmid_kernel 结构 中 把 一 个 慰 
志 位 SHM_LOCKED 设 成 1; 男 一 方面 , 同时 在 相应 shm 文件 的 inode 结构 内 部 将 其 shmem_inode_info 
结构 中 的 字段 locked 也 设置 成 1。 污 者 应 该 还 记得 ， 对 丁 shm 文件 ，inode 结构 中 的 union 解释 为 
shmem_inode_info 结构 。 

而 在 shmem_writepage( ) 中 ， 则 此 检查 页 面 所 属 shm 文件 的 inode 结构 内 部 的 这 个 标志 ， 刀 果 为 1 
就 提前 返回 《 见 上 而 shmem_writepage( ) 代 码 中 的 203—205 行 )， 从 而 使 对 该 页 面 的 writepage 操作 变 
成 了 空 操 作 。 
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6.8 4&3 € 


秀 而 讲 过 ， 共 部 内存 为 进 称 间 通讯 提供 了 一 种 效率 很 高 的 手段 ， 但 是 这 种 机 制 所 提供 的 只 是 狭义 
的 “通信 ”于 段 ， 而 并 不 提供 进程 问 同步 的 机 能 。 所 以 ， 闪 享 内 存 作为 广义 的 进程 间 通 信 手 段 还 必须 
歧 有 其 他 机 制 的 配合 。 同 时 ， 除 共享 内 在 以 外 ， 还 有 其 他 需 此 共享 资源 的 场合 也 需要 有 进程 间 问 步 的 
手段 。 举 例 来 说 ， 如 果 有 两 个 进程 共享 同一 个 tty 终端 ， 并 且 各 自 都 道 过 printfC ) 在 屏 而 上 显示 一 些 字 
符 串 ， 就 很 可 能 会 使 来 自 两 个 不 同 进程 的 字符 在 屏 面 上 混成 一 片 ， 而 令 人 无 法 阅读 。 所 以 ， 片 则 上 讲 
只 要 两 个 进程 育 接 共享 某 个 资源 ， 就 得 要 有 上 互相 辣 步 的 手段 。 共 中 有 些 同 步 是 由 内 核 自 动 提供 的 〔 例 
如 对 CPU， 对 答 道 机 制 中 的 缓冲 区 ， 等 等 )， 而 有 些 则 要 由 所 涉及 的 进程 自己 来 关心 。 

由 此 可 见 ， 将 已 经 在 内 核 中 使 用 的 进程 间 同 步 机 制 “ 信 号 量 ” 推 广 到 用 户 空间 ， 是 很 自然 的 事 。 
SysV IPC 中 的 “信号 基 ” 机 制 就 是 这 样 一 种 推广 , 所 以 实际 上 应 该 称 为 “用 户 空间 信号 量 ” 以 示 区 别 。 
^x, RAB TSA, RTE RRA USE”, 读者 应 注意 区 分 用 户 室 间 信 和 号 量 与 
以 前 讲 过 的 内 核 信号 量 这 二 者 之 问 的 区 别 。 同 时 ， 还 要 认识 到 “用 户 室 间 信号 量 ” 这 种 机 制 是 由 内 核 
来 文 持 ， 在 系统 守 间 中 实现 的 ， 只 不 过 是 由 用 户 进 程 直 接 使 用 而 已 。 

与 信号 量 有 关 的 抵 作 有 三 种 ， 就 是 SEMGT，SEMOP 以 及 SEMCTL， 分别 由 sys semget( ), 
sys semop( ) 和 sys semcti( ) 实 现 。 有 关 的 代码 和 定义 基本 上 都 在 文件 ipc/sem.c f include/linux/sem.h 中 。 


6.8.1 ERA semget( ) 一 一 创建 或 寻找 信号 量 


FR sys_semget( ) 的 代码 与 sys_msgget( ) 几 乎 “ 模 一 样 ， 主 要 的 区 别 只 是 把 sys_msgget( ) 中 的 子 程 
FEAR] newque( ) 换 成 了 newary( )。 所 以 我 们 就 来 看 看 newary() (sem.c): 


112 static int newary (key t key, int nsems, int semf lg) 


113 { 

114 int id; 

115 struct sem array *sma; 

116 int size; 

117 

118 if (!nsems) 

119 return  ETNVAL; 

120 if (used sems + nsems > sc semmns) 

12] return -ENOSPC; 

122 

123 size = sizeof Cksma) + nsems * sizeof (struct sem); 
124 sma = (struct sem array *) ipc alloc(size); 

125 if (!sma) { 

126 return -ENOMEM; 

127 } 

128 memset (sma, 0, size): 

129 id = ipc addid(&sem ids, &sma-^sem perm, sc sommni); 
130 if(id = -1) f 
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131 ipc_free(sma, size); 

132 return -ENOSPC; 

133 } 

134 used sems += nsems; 

135 

136 sma->sem_perm. mode = (semflg & S_TRWXUGO) ; 
137 sma—>sem_perm. key = key; 

138 

139 sma->sem_base = (struct sem *) &sma[1] ; 
140 /* sma->sem pending = NULL; */ 

141 sma—>sem pending last = &sma-^sem pending; 
142 /* sma-»undo = NULL; */ 

143 sma-»sem nsems = nsems; 

144 sma—>sem_ctime = CURRENT TIME; 

145 sem_unlock (id) ; 

146 

147 return sem buildid(id, sma~>sem_perm. seq); 
148 } 


先 看 调用 参数 。 只 要 回顾 -一 下 sys msgget( )， 这 里 面 的 参数 key 和 semflg 就 很 自然 、 很 容易 理解 
T. 特殊 之 处 在 于 第 二 个 参数 nsems， 它 表 示 在 由 同一 个 信号 量 标识 号 所 代表 的 数据 结构 中 要 设置 几 个 
信号 量 。 也 就 是 说 ， 一 个 信号 量 标识 号 代表 着 一 组 而 不 只 是 一 个 信号 量 ， 由 sys_semget( ) 建 立 或 找到 
的 也 是 一 组 而 不 只 是 一 个 信号 量 。 看 一 下 数据 结构 类 型 sem. array 的 定义 , 这 一 点 就 更 清楚 了 (sem.h). 


87 /* One sem array data structure for each set of semaphores in the system. */ 
88 struct sem_array { 


89 struct kern_ipc_perm sem perm;  /* permissions .. see ipc.h */ 

90 time t sem otime;  /* last semop time */ 

91 time t sem ctime; /* last change time */ 

92 struct sem *sem base; /* ptr to first semaphore in array */ 
93 struct sem queue *sem pending;/* pending operations to be processed */ 
94 struct sem queue **sem_pending_last; /* last pending operation */ 

95 struct sem_undo *undo; /* undo requests on this array */ 

96 unsigned long sem nsems;  /* no. of semaphores in array */ 

97 Hh 


显然 ,这 一 次 ipc_perm 数 据 结构 的 宿主 变 成 sem_array 了 。 同 样 地 ,整个 信 号 量 机 制 的 总 根 是 ipc_ids 
数据 结 构 sem ids: 


74 static struct ipc_ids sem_ids; 


其 中 的 指针 entries 同样 指向 -个 ipc_id 结构 数组 ， 而 ipc id 结构 中 的 指针 p 也 间 样 指向 一 个 
ipc_perm 数据 结构 ， 只 不 过 它 的 宿主 变 成 了 sem_array 数据 结构 。 在 这 一 点 上 ,三 种 SysV IPC 机 制 的 
基本 格局 都 是 一 样 的 。 可 是 ， 我 们 在 这 里 注意 的 不 是 这 些 ， 而 是 sem_array 结构 中 的 指针 sem_base， 
它 指向 一 个 结构 数组 。 该 数组 中 的 每 一 个 sem 数据 结构 都 是 -个 信号 量 : 
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81 /* One semaphore structure for each semaphore in the system. */ 
82 struct sem { 

83 int semval; /* current value */ 

84 int sempid; /* pid of last operation */ 

85} ; 


这 个 数组 的 大 小 由 参数 nsems 决定 , 其 空间 连同 sem, array 数据 结构 :起 进行 分 配 (123 一 124 行 )， 
所 以 紧 贴 在 sem, array 结构 后 面 ， 而 &sma[1] 鳄 是 其 起 始 地 址 (139 行 )。 

那么 ， 为 什么 sys_semget( ) 要 人 允许 建立 一 组 而 不 只 是 一 个 信号 量 昵 ? 我 们 在 讲述 内 核 信号 量 时 曾 
经 谈 到 临界 区 藤 套 是 很 容易 引起 死 锁 的 。 当 :项 操作 涉及 多 项 共享 资源 时 ， 如 果 先 取得 了 其 中 项 ， 
然后 试图 取得 另 一 项 资源 不 成 而 等 待 时 ， 就 可 能 会 因为 直接 或 癌 接 的 循 坏 等 竺 而 形成 死 锁 。 在 操作 系 
统 理论 中 ， 最 典型 的 多 锁 就 是 由 这 种 各 自 点 有 部 分 资源 不 放 而 等 待 其 他 过 程 释放 另 一 部 分 资源 而 形成 
的 所 谓 “哲学 家 与 刀 叉 ”问题 。 吃 西 答 既 昌 用 刀 又 要 用 又 ， 如 果 一 个 人 拿 到 了 刀 不 放 而 等 待 凡 人 放弃 
他 手 上 的 又 ， 而 另 一 个 则 拿 到 了 叉 不 放 而 等 待 别人 放弃 他 的 妨 ， 那 就 死 馈 了 。 解 决 的 方法 是 ， 凡 是; 
使 用 多 项 资源 就 一 定 一 步 《〈 不 可 分 割 的 一 步 ) 就 取得 所 有 的 资源 ， 或 者 在 一 日 得 不 到 某 项 资源 时 就 释 
放手 中 所 有 的 相关 资源 。 换 句 话说 ， 对 这 些 “ 临 界 资源 ”的 取得 要 么 起 全 有 ， 要 么 是 全 无 。 可 是 ， 这 
一 点 对 于 用 户 空间 的 程序 来 说 是 难以 保证 的 ， 所 以 要 以 系统 调用 的 形式 来 提供 这 样 … 种 机 制 ， 这 就 是 
sys semget( ) 允 许 建立 一 组 而 不 只 是 … 个 信号 量 的 原因 。 这 样 一 来 ， 在 建立 了 一 组 信号 量 以 后 ， 用 户 进 
程 就 可 以 通过 SEMOP 操作 在 一 次 系统 调用 中 《因而 是 不 可 分 割 的 ) 取得 多 项 共享 资源 的 使 用 权 ， 或 
者 就 不 占有 任何 共享 资源 地 等 待 ， 从 而 防止 死 锁 的 发 生 。 

明白 了 这 一 点 ， 皇 对 暇 sys msgget( ) 的 有 关 代 码 ， 这 里 newarg ) 的 代码 就 很 好 理解 了 。 


6.8.2” 库 函数 semop() 一 一 信号 量 操作 





由 于 一 次 SEMOP 操作 可 以 是 对 个 信和 号 量 集 合 〈 而 不 仅仅 是 一 个 信号 量 ) 的 操作 ， 并 且 必 须 符 
合 “ 要 么 全 有 , 要么 全 大 ”的 原则 ，sys_semop( ) 的 代码 自然 就 比较 复杂 一 些 了 。 我 们 分 段 来 看 (sem.c ): 


826 asmlinkage long sys_semop (int semid, struct sembuf *tsops, unsigned nsops) 
827 { 

828 int error = -EINVAL; 

829 struct sem_array *sma; 

830 struct sembuf fast sops[SEMOPM FAST]; 

831 struct sembuf* sops - fast sops, *sop; 

832 struct sem undo *un; 

833 int undos = 0, decrease = 0, alter = 0; 

834 struct sem queue queue; 

835 

836 if (nsops < ] i| semid < 0) 

837 return -EINVAL; 

838 if (nsops > sc semopm) 

839 return -E2BIG; 

840 if(nsops > SEMOPM_FAST) { 

841 sops - kmal loc (sizeof (*sops) *nsops, GFP KERNEL) ; 
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842 if (sops==NULL) 

843 return -ENOMEM 

844 } 

845 if (copy from user (sops, tsops, nsops * sizeof (*tsops))) 1 
846 error-—-EFAULT; 

R47 goto out free; 

848 } 


这 里 的 参数 tsops 是 .个 指针 ， 指 向 用 户 空间 中 的 一 个 semabuf 结构 数组 ， 而 nsops 则 是 该 数组 的 
大 小 。 数 组 中 的 每 一 项 都 规定 了 对 ”个 信号 量 的 操作 ， 测 对 数组 中 所 有 规定 的 操作 是 “原子 的 ” (ust 
是 全 有 或 全 无 。 数 据 结 构 类 型 sembuf 的 定义 为 (sem.h): 


37 /* semop system calls takes an array of these. */ 

38 struct sembuf | 

39 unsigned short sem num; /* semaphore index in array */ 
40 short sem op; /* semaphore operation */ 

4] short sem flg; /* operation flags */ 

42. M 


这 里 的 sem, num 为 具体 信号 在 通过 SEMGET 建立 的 一 组 信号 量 中 的 下 标 。 而 sem_op 则 为 一 个 小 
小 的 整数 ， 原 则 上 这 个 整数 会 被 相 加 到 相应 信号 量 的 当前 值 .1。 如 果 辣 到 我 们 在 讨 论 内 核 信号 量 时 所 
打 的 比喻 ， 则 当 这 个 整数 为 十 1 时 表示 退还 , 或 多 供应 一 张 门票 ; 虎 一 ! 则 表示 要 取得 一 张 门 京 ; [Bes 
也 允许 更 大 或 更 小 的 数值 。 从 不 理 上 说 ， 这 个 数值 的 大 小 反映 了 要 取得 或 供应 同一 种 资源 的 数量 。 相 
加 以 后 ， 如 果 具 体 信号 量 的 数值 变 成 了 负数 则 表示 不 能 满足 要 求 ， 此 时 当前 进程 - 般 就 会 进入 睡眠 等 
待 ， 除 非 要 有 安排 〔 见 下 文 )。 如 果 sem op 的 数值 为 0， 则 信号 量 的 当前 值 当然 不 会 改变 ， 而 只 是 表 
示 询 问 相 应 信和 号 量 的 数值 是 否 为 0， 若 不 为 0 就 等 待 其 变 成 0， 除 非 另 有 安排 。 原 则 上 ， 一 个 进程 通过 
SEMOP 操作 取得 的 资源 应 该 由 其 自己 通过 另 一 次 SEMOP 操作 归还 ,所 以 如 果 第 一 次 操作 中 对 茶 个 信 
EK) sem op 为 一 1， 则 第 二 次 就 应 该 是 十 I。 此外， 通过 sembuf 结构 中 的 sem flg 可 以 设置 师 个 标 
志 位 ;一 个 是 他 C_NOWAIT, 表示 在 条 件 不 能 满 是 时 不 要 睡眠 等 待 , 而 立即 返回 (出 错 代 码 为 EAGAIN); 
另 一 个 是 SEM_UNDO， 表 示 留 下 遗嘱 ， 力 一 当前 进程 欠 债 不 还 ， 尚 未 退还 占有 的 资源 就 寿终正寝 
Cexit()) 的 话 ， 就 山内 核 代 为 退还 。 

回 到 sys_shmop( ) 的 代码 中 ， 从 用 户 空间 把 参数 复制 到 内 核 后 ， 继 续 往 下 看 (sem.c): 


849 sma = sem lock(semid) ; 

850 error--EINVAL; 

851 i f (sma- NULL) 

852 goto out free; 

853 error - -EIDRM; 

854 if (sem checkid(sma, semi d)) 

855 goto out unlock froe; 

856 error = -EFBIG; 

857 for (sop = sops; sop X sops + nsops; sopt*) { 
858 if (sop-^sem num >= sma->sem_nsems) 
859 goto out_unlock_free; 
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860 if (sop->sem flg & SEM UNDO) 

861 undost+; 

862 if (sop-^sem op < 0) 

863 decrease = |; 

864 if (sop->sem op > 0) 

865 alter = 1; 

866 } 

867 alter |= decrease; 

868 

869 error = ~EACCES; 

870 if (ipeperms(&sma-^sem perm, alter ? S IWUGO : S TRUGO)) 
871 goto out_unlock free; 

872 if (undos) { 

873 /* Make sure we have an undo structure 
874 * for this process and this semaphore set. 
875 */ 

876 un-current >semundo; 

877 while(un != NULL) { 

878 if (un ^semid--semid) 

879 break; 

880 if (un >semid—=-1) 

881 un=freeundos (sma, un) ; 

882 else 

883 un=un->proc next; 

884 } 

885 if (fun) { 

886 error = alloc undo (sma, &un, semid, alter); 
887 if (error) 

888 goto out free; 

889 } 

890 } else 

891 un = NULL: 

892 


这 里 的 sem_lock( ) 和 sem checkid( ) 与 报 文 队列 机 制 中 的 msg_lock( ) 和 msg checkid( ) 相 似 ， 读 者 
CARET. 接 下 来 就 是 先 对 用 户 规定 的 所 有 信和 号 量 操 作 进行 BAT, 看 看 有 几 项 是 要 SEM_UNDO 
的 ， 有 几 项 是 要 改变 相应 信号 量 的 当前 值 的 。 信 号 量 也 受到 类 似 于 磁盘 文件 一 - 样 的 访问 权限 保护 ， 要 
改变 信号 量 的 当前 值 就 必须 要 其 备 对 它 的 写 访问 权 ， 由 消 数 ipcperms( ) 加 以 检查 。 如 果 用 户 在 调用 
sys_semop( ) 寺 至 少 为 一 个 信号 量 操作 规定 了 SEM. UNDO, 那 就 要 分 配 一 个 sem. undo 数据 结构 用 来 记 
有 求 当前 进程 对 每 “组 信号 量 的 “债务 ”。 显 然 ， 每 个 进程 都 可以 有 这 样 的 “债务 ”， 并 上 且 每 个 进程 可 以 
对 多 个 信号 量 集合 从 有 这 样 的 “债务 ”( 要 非常 小 心 ， 内 为 这 可 能 引起 死 锁 )， 但 是 同一 个 进程 对 同一 
个 信和 与 量 集 合 的 “债务 ” 则 内 要 用 一 个 数据 结构 就 可 以 描述 了 。 所 以 ， 在 进程 的 task struct 中 维持 了 
一 条 sem undo 结构 队列 ， 这 就 是 在 task struct 结构 中 有 个 semundo 指针 的 原 内 。 

数据 结构 类 型 sem undo 的 定义 为 (sem.h): 


114 / Each task has a list of undo requests. They are executed automatically 
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-一 一 -一 -一 -一 


115 * when the process exits. 

116 */ 

117 struct sem_undo { 

118 struct sem undo * proc_next; /* next entry on this process */ 

119 struct sem undo * id_next; /* next entry on this semaphore set */ 
120 int semid; /* semaphore set identifier */ 

121 short * semadj; /* array of adjustments, one per semaphore */ 

122 bh 


i$ MER EWR, p EE EHE BEERA ERT ERR. AUER Ma 
号 量 集合 的 sem_array 中 也 有 个 指针 undo， 用 来 维持 个 sem undo 结构 队列 。 而 每 一 个 sem_undo Fi 
构 则 ， 有 了 两 个 指针 proc. next 和 id_next， 分 别 用 来 链 入 到 task_struct 结构 中 的 队列 和 sem. array 结构 中 
的 队列 ( 见 疼 6.9). BER alloc_undo( ) 分 配 一 个 sem. undo 数据 结构 并 完成 两 个 队列 的 链 入 。 

至 此 ， 所 有 的 准备 工作 都 已 完成 ， 下 面 束 是 实质 性 的 操作 了 (sem.c): 


[sys_semop( )] 


893 error = try atomic semop (sma, sops, nsops, un, current->pid，0) ， 
894 if (error <= 0) 

895 goto update; 

896 


函数 ty_atomic_semop()， 正 如 其 函数 名 所 说 那样 ， 试 图 将 对 给 定 的 所 有 信号 量 的 操作 作为 ”个 整 
体 来 完成 (sem.c) . 


task_struct 结构 sem_undo 结构 semid_ds 结构 





说 明 :每 一 个 sem_unde 结 构 回 时 在 两 个 队列 中 ， 既 属于 某 个 进程 〈 实 线 表示 ) 义 属于 某 个 信号 量 集合 (虚线 表示 )， 将 
两 者 联系 在 一 起 。 


图 6.9 进程 与 信号 量 集合 联系 示意 图 
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[sys_semop( ) > try_atomic_semop( )] 
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207 
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/* 


* Determine whether a sequence of semaphore operations would succeed 


* all at once. Return 0 if yes, 1 if need to sleep, else return error code. 


*/ 


static int try atomic semop {struct sem array * sma, struct sembuf * SODS， 


out_ 


int nsops, struct sem undo *un, int pid, 


int do undo) 


int result, sem op; 
Struct sembuf *sop; 
struct sem * curr; 


for (sop = sops; sop € sops + nsops; soptt) { 
curr = sma-2sem base + sop-5sem num; 
sem op = sop-?sem op; 


if (!sem op && curr->semval) 
goto would block; 


curr-^sempid = (curr->sempid << 16) | pid; 

curr->semval += sem op; 

if (sop->sem flg & SEM UNDO) 
un-^semadj[sop-^sem num] -= sem op; 


if (curr->semval < 0) 
goto would block; 

if (curr-^semval > SEMVMX) 
goto out of range; 


} 


if (do_undo) 

{ 
SOD ^, 
result - 0; 
goto undo; 


sma->sem otime = CURRENT TIME; 
return 0; 


of range: 
result = -ERANGE; 
goto undo; 


would block: 
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282 if (sop->sem flg & IPC NOWALT) 

283 result = -EAGAIN; 

284 else 

285 result - 1; 

286 

287 undo: 

288 while (sop >= sops) { 

289 curr = sma->sem base + sop->sem_num; 
290 curr—>semval -= sop-?sem op; 

291 curr->sempid >>= 16; 

292 

293 if (sop-»sem flg & SEM UNDO) 

294 un-»semadi[sop-?sem num] += sop-?sem op; 
295 SOp--; 

296 j 

297 

298 return result; 

299  ] 


oe wi REBT, AERA do undo 为 0， 这 起 在 sys shmop( ) 中 的 第 893 ITEA SH. 
所 以 ， 如 果 for 循环 正常 结束 ， 也 就 是 对 每 个 信和 号 量 的 操作 都 没有 使 它 的 值 semval 变 成 负数 的 话 ， 那 
就 已 经 成 功 地 取得 了 需要 的 全 部 资源 ， 此 时 函数 返回 0。 除 此 之 外 ， 有 二 种 情况 可 以 使 这 个 for 得 环 中 
途 天 折 。 | 

第 一 种 情况 是 对 某 个 信号 量 的 操作 使 其 数值 超过 了 最 大 值 SEMVMX。 在 这 种 情况 下 ， 本 次 系统 调 
用 实际 上 不 能 继续 下 去 了 , 所 以 就 转 到 out of. range 处 把 出 错 代 码 设 置 成 一 ERANGE, 然后 后 转 到 undo 
处 通过 - -个 while 循环 把 前 面 已 经 完成 了 的 操作 都 抵消 掉 ， 让 已 经 在 for 循环 中 改变 了 的 优 号 量 数值 都 
还 原 。 不 光 是 信号 量 semval 的 值 要 还 原 , 表示 是 谁 最 后 一 次 改变 信号 量 数 值 的 sempid WEE). BA, 
如 果 SEM. UNDO 标志 为 1 的 话 ， 还 要 把 sem_undo 结构 中 记 下 的 “ 账 ” 也 还 原 。 总 之 一 句 话 ， 在 不曾 
痕迹 。 

第 -种 情况 是 对 其 个 信和 号 量 的 操作 使 它 的 值 变 成 了 负数 。 这 表示 获取 由 这 个 信号 量 所 代 灵 的 资源 

(的 使 用 权 〉 的 努力 受到 了 阻 但， 一 -时 还 得 不 到 这 种 资源 。 一 般 米 说 ， 这 时 修 就 要 睡眠 等 生 了， 所 以 
就 转 到 would. block 处 。 在 这 里 ，- 方面 根据 IPC_NOWAIT 标志 的 值 来 决定 函数 的 返回 值 ， 男 一 方面 
同样 些 通过 undo 处 的 while 循环 将 已 经 取得 的 资源 全 都 退还 ， 或 者 说 将 已 经 执行 的 操作 都 还 原 ， 也 要 
ABE. AACE HIRE “BASH, RASH”. 

第 三 种 情况 是 对 其 个 信号 量 的 操作 sem op 的 值 为 0， 人 出 这 个 信号 量 的 当前 全 又 趾 非 0， 对 这 种 情 
况 的 处 理 与 第 :种 情况 相同 ， 也 十 转 到 would block 处 。 

最 后 ， 如 果 参 数 do_undo WIERE? 示 表 示 只 需要 试 一 上， 看 看 能 否 皮 得 所 有 需要 的 资源 ， 身 并 
不 是 真 的 要 改变 这 些 信号 量 的 数值 ， 所 以 在 成 功 以 后 , HI for 循 坏 正常 结束 以 后 ， 就 将 所 有 的 操作 企 部 
AR. 

从 try_atomic_semop( ) 返 回 到 sys_semop( ) 中 时 ， 返 回 值 有 让 种 可 能 。 返 回信 为 0 Aas A RIRE 
都 成 功 了 ， 当 前 进程 已 经 握 有 所 需 的 全 部 资源 ， 可 以 返回 到 用 户 空间 进入 “临界 区 ”继续 执行 了 。 返 
回 值 为 负 值 表示 操作 失败 了 ， 并 日 出 了 错 。 在 这 同 种 情况 下 都 转 到 标号 “update 4b EREXIT e 
善后 操作 ， 然 后 就 返回 了 〔 购 后 面 的 代码 )。 第 三 种 情况 是 返 问 值 为 1， 表示 对 茶 个 信号 量 的 操作 失败 
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了 ， 需 要 睡眠 等 待 。 维 续 往 下 看 (sem.c): 


[sys_semop( )] 


897 /* We need to sleep on this operation, so we put the current 
898 * task into the pending queue and go to sleep. 
899 */ 

900 

901 gueuc. sma = sma; 

902 queue. sops = sops: 

903 queue. nsops = nsops; 

904 queue. undo = un: 

905 queue. pid = current-?pid; 

906 queue. alter = decrease; 

907 queue. id = semid; 

908 if (alter) 

909 append to queue(sma , &queue) ; 

910 else 

911 prepend to queue(sma , &queue) : 

912 current—>semsleeping = &queue; 

913 

914 for Qu 

915 struct sem array* tmp; 

916 queue. status = -EINTR; 

917 queue. sleeper = current; 

918 current—>state = TASK INTERRUPTIBLE: 
919 sem unlock (semid) ; 

920 

921 schedule( ); 

922 

923 tmp = sem lock(semid) ; 

924 if(tmp--NULL) | 

925 if (queue. status !- -EIDRM) 

926 BUG( ) ; 

921 current—>semsleeping = NULL; 

928 error = -EIDRM; 

929 goto out. free; 

930 } 

931 /* 

932 * If queue. status => 1 we where woken up and 
933 * have to retry else we simply return. 
934 * If an interrupt occurred we have to clean up the 
935 * queue 

936 * 

937 * / 

938 if (queue. status == 1) 

939 { 
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940 error = try_atomic_semop (sma, sops, nsops, un, 
941 current—>pid, 0) ; 

942 if (error <= 0) 

943 break; 

944 - ) else { 

945 error - queue. status; 

946 if (queue. prev) /* got Interrupt */ 
947 break; 

948 /* Everything done by update_queue */ 
949 current—>semsleeping = NULL; 

950 goto out_unlock_free; 

951 } 

952 } 

953 |»  eurrent semsleeping = NULL; 

954 remove from queue (sma, &queue) ; 

955 update: 

956 if (alter) 

957 update queue (sma); 

958 out unlock free: 

959 sem unlock (semid) ; 

960 out free: 

961 if(sops != fast sops) 

962 kfree(sops); 

963 return error; 

964  ] 


与 报 文 队 列 相似 , 睡眠 时 要 将 一 个 代表 着 当前 进程 的 sem_queue 数据 结构 链 入 相应 sem. array 数据 
结构 中 的 sem pending 队列 。 这 里 sem queue 数据 结构 的 定义 为 ‘sem.h): 


99 /* One queue for each sleeping process in the system. */ 

100 struct sem queue { 

101 struct sem queue * next; /* next entry in the queue */ 

102 struct sem_queue ** prev; /* previous entry in the queue, *(q->prev) == q */ 
103 struct task struct* sleeper; /* this process */ 

104 struct sem undo * undo; /* undo structure X*/ 

105 int pid; /* process id of requesting process */ 
106 int status; /* completion status of operation */ 

107 struct sem_array * sma; /* semaphore array for operations */ 
108 int id: /* internal sem id */ 

109 struct sembuf * SODS; /* array of pending operations */ 
110 int nsops;  /* number of operations */ 

111 int alter;  /* operation will alter semaphore */ 

n2. Ji 


在 将 这 个 数据 结构 链 入 sem. pending BARI, RK AIK REAR SE, A 
而 确定 将 其 链 入 到 队列 的 尾部 或 前 部 。 处 于 队列 前 部 的 结构 (实际 上 是 进程 ;， 在 被 唤醒 时 享受 到 一 些 
优先 。 此 外 ， 在 进程 task_struct 结构 中 也 有 一 -个 指针 semsleeping， 当 进程 因 信号 量 操 作 而 进入 睡眠 时 
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就 指 同 其 sem. queue 数据 结构 。 


进入 睡眠 以 后 ， 就 要 到 被 唤醒 时 才 会 从 921 行 的 schedule( ) 调 用 中 返回 。 那 么 ， 由 谁 来 唤醒 昵 ? 让 


我 们 回 过 头 去 看 看 前 面 当 try_atomic_semop( ) 的 返回 值 为 0 或 负数 时 转 到 update 处 以 后 的 情况 。 如 果 本 
次 操作 改变 了 某 些 信 号 量 的 值 ( 见 956 行 )， 那 就 说 明 这 个 信号 量 集合 的 状态 发 生 了 菜 些 变 化 ， 原 来 因 
条 件 不 满足 而 只 好 睡眠 等 待 的 进程 也 许 现在 可 以 得 到 满足 了 ， 所 以 就 调用 update_queue( ) 来 试 试看 


(sem.c): 


[sys_semop( ) > update_queue( )] 


301 
302 


/* Go through the pending queue for the indicated semaphore 


* looking for tasks that can be completed. 


static void update_queue (struct sem array * sma) 


{ 


} 


int error; 
struct sem queue * qg; 


for (q = sma-^sem pending; q; q = q->next) { 


if (q->status == 1) 


continue; /* this one was woken up before */ 


error = try atomic semop(sma, q->sops, q-»nsops, 


q-^undo, q->pid, q-^alter): 


/* Does q-^sleeper still need to sleep? */ 
if (error <= 0) ( 


/* Found one, wake it up */ 
wake_up_process (q->sleeper) : 
if (error == 0 && q->alter) { 
/* if q^ alter let it self try */ 
q->status = |: 
return; 
} 
q->status = error; 
remove from queue (sma, q) ; 


把 311 {TH if (q->status == 1) 暂时 搁 一 下 ， 先 看 for 循环 的 主体 。 这 个 循环 顺 着 队列 依次 让 每 个 


正在 睡眠 中 等 待 的 进程 试 一 下 , 看 看 现在 能 和 否 顺 利 完 成 其 信号 量 操作 。 注 意 , 这 里 对 try_atomic_semop( ) 
的 最 后 一 个 调用 参数 为 g->alter， 表 示 如 果 原 先 的 操作 要 改变 某 些 信号 量 的 值 ， 那 么 现在 只 是 试 一 下 ， 
而 不 是 真 的 执行 这 些 操作 。 试 了 以 后 的 结果 无 非 是 三 种 ， 第 一 种 是 条 件 仍 不 满足 ， 继 续 留 在 队列 睡眠 
等 待 。 第 二 种 是 条 件 仍 不 满足 但 是 发 生 了 出 错 ， 此 时 应 将 该 进程 唤醒 ， 将 q -> status 设置 成 由 
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try_atomic_semop( ) 返 回 的 出 错 代 码 ， 并 将 此 数据 结构 从 队 询 中 摘除 。 既 然 出 了 馈 ， 抬 作 已 不 能 进行 ， 
留 在 队列 中 睡眠 等 待 当然 羡 毫 于 意义 而 且 有 宕 。 第 三 种 情况 是 某 个 进程 的 信和 号 量 操作 原 米 因 条 件 个 满 
足 而 只 好 睡眠 等 待 ， 但 中 现在 条 件 已 经 能 满足 了 。 此 时 将 该 进程 唤醒 ， 并 将 其 q->status 设 成 1， 而 且 
for 循环 就 此 结束 。 也 就 是 说 ， 如 上 队列 中 实际 上 有 多 个 进程 的 条 件 部 可 以 得 到 满足 ， 只 有 排 在 最 前 面 
的 那个 进程 才 被 唤醒 。 唤 醒 时 进程 的 sem queue 数据 结构 仍 留 在 队列 中 。 另 一 方面 ， 如 果 对 同一 个 信 
导 量 集合 再 调用 “次 update_queue( )， 只 要 已 被 唤醒 并 有 cq -> status 已 被 署 成 1 的 进程 还 在 队列 中 尚 本 
离开 ， 就 会 在 311 行 的 让 语句 中 将 其 跳 过 。 由 此 可 见 ， 除 了 人 在 新 情况 下 发 生出 错 的 进程 不 算 ， 每 次 凋 
用 update_queue( ) 最 多 只 唤醒 “个 进程 ， 而 且 古 排 在 前 面 的 进程 优先 。 因 此 ， 不 要 求 改变 信号 量 数 值 的 
进程 是 得 到 优先 的 ， 因 为 它们 排 在 队列 的 前 面 。 除 此 之 外 ， 那 就 是 先 米 者 优先 了。 
应 该 指出 ， 进 程 本 身 的 优先 级 划 在 这 里 并 不 起 任何 作用 。 也 就 是 说 ， 当 有 两 个 进程 都 此 取得 对 问 

-组 资源 的 使 用 权时 ， 优 先 级 别 较 低 的 进程 有 可 能 先 到 一 步 而 在 队列 中 排 在 较 前 的 位 置 上 ， 从 而 就 先 
取得 了 这 组 资源 ， 侧 优先 级 别 较 高 的 进程 就 只 好 “不 摘 特 殊 化 ”， 耐 心 等 待 了 。 从 这 个 意义 上 ， 严 格 地 
Ut, Linux 并 不 是 为 实时 系统 而 设计 的 。 当 然 ， 要 改变 这 :点 也 不 难 ， 这 也 是 为 什么 已 经 有 了 Se" 
时 Linux” 版 本 的 原因 之 一 。 

在 睡眠 中 等 待 信号 量 操 作 的 进程 除了 可 以 被 调用 updat_queue( ) 的 进程 所 唤醒 之 外 ， 还 可 能 因为 接 
收 到 信号 而 被 响 瞩 。 由 于 进入 睡眠 前 ( 见 916 行 ) 已 经 把 q->status 设置 成 一 EINTR， 所 以 当 因 接收 到 
信号 而 被 唤醒 时 这 个 值 仍然 是 一 EINTR。 还 有 一 种 情况 ， 那 就 是 如 果 一 个 信号 量 集 合 被 取消 了 ， 此 时 
所 有 正在 唾 眠 等 待 的 进程 都 会 被 唤醒 ， 并 有 q->status 被 设置 成 一 EIDRM.，。 

回 到 sys_semop( ) 的 代码 中 。 从 schedule( ) 返 辐 以后， 首先 要 通过 sem_lock( ) 再 次 确认 操作 的 对 R 
(HEME BES, FORA. dx res ACRES SS BRAIN sem. array 数据 结构 的 指针 ， 只 
B SERS AAEM AIR NULL. WIARE queue.status 的 数值 可 以 判 知 被 唤醒 的 原 
因 。 这 个 数值 为 1， 表示 update_queue( ) 发 现 该 进程 的 条 件 满足 了 ， 但 是 情况 也 可 能 义 有 了 变化 〈 例 旭 
另 一 个 进程 已 经 在 此 之 前 对 该 信号 量 集合 成 功 地 进行 了 某 些 操作 ), 所 以 940 行 处 的 try_atomic_semop( ) 
还 是 有 可 能 失败 ， 如 果 失 败 就 些 同 到 for 循环 ( 见 914 行 ) 的 开始 处 再 次 入 睡 了 。 注 意 这 里 讽 用 
try_atomic_semop( ) 时 的 最 后 一 个 参数 又 是 0， 表 示 这 是 “ 动 真 格 ” 的 。 要 是 成 功 了 ， 或 者 出 子 错 ， 那 
就 跳出 了 for 循 坏 ， 将 sem queue 结构 从 队列 中 脱 链 以 后 就 经 过 update 返回 本。 

WE queue.status 不 为 1 WE? 此 时 有 两 种 可 能 。 第 一 种 可 能 是 因为 接收 到 信和 叶 而 被 唤醒 ， 所 以 
sem queue 结构 还 在 队列 中 ，queue.prey 指针 -必定 为 非 0。 此 时 也 此 跳出 for 循环 《947 行 )， 也 要 将 
sem queue 结构 从 队列 中 脱 链 ， 并 经 由 update 返回 。 所 不 同 的 是 ， 此 时 sys_semop( ) 的 返回 值 必定 会 是 
—EINTR (il, 916 行 和 963 行 )。 第 二 种 可 能 是 因为 在 新 的 情况 下 发 生 了 出 错 而 被 update_queue( RAE, 
并 己 从 队列 中 脱 链 。 此 时 也 从 for 循环 中 跳出 950 行 )， 但 是 直接 就 跳 到 out lock free 处 返 加 了 ， 并 
且 返 回 值 就 是 由 update, queue( ) 所 设置 的 出 错 代码 。 

最 后 ， 还 有 个 事 此 交待 一 下 。 我 们 在 前 而 讲 过 ， 调 用 sys_semop( ) 时 将 SEM, UNDO 标志 设 成 1 就 
表示 “ 立 下 遗嘱 ”， 万 一 进程 在 归还 所 获取 的 资源 之 前 就 exit( ) 的 话 ， 就 委托 内 核 代 为 归 偿 。 实 际 E» 
既然 占有 资源 的 进程 忆 经 exit( )， 则 这 些 资源 事实 上 已 经 不 再 被 占用 了 。 问题 起 相应 信号 量 的 数值 没有 
得 到 调整 ， 就 好 像 仓 库 里 明明 有 东西 但 账本 上 却说 没有 了 。 而 委托 内 核 做 的 事 ， 就 是 平时 每 次 都 通过 
sem, undo 数据 结构 记 下 账 ， 然 后 当 进程 exit( ) 时 ， 根 据 该 进程 的 sem. undo 数据 结构 队列 来 调整 有 天 售 
号 量 的 数值 。 这 是 怎样 实现 的 呢 ? 读者 可 以 回 到 第 4 章 do_exit( ) 的 代码 中 看 一 下 ， 人 在 那里 此 调用 一 个 
函数 sem_exit( )。 这 个 函数 所 做 的 事情 是 :如果 exit ) 的 进程 中 某 个 信号 量 在 集合 的 队列 中 等 待 ， 就 将 
其 脱 链 。 然 后 扫描 该 进程 的 semundo 队列 ,根据 每 个 sem. undo 数据 结构 中 的 记载 ,依次 对 相应 信 与 量 
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集合 中 的 相应 信号 量 数值 作出 调整 。 最 后 调用 update_queue( ) 虎 醒 可 能 正在 等 待 的 进程 。 函数 的 代码 也 
在 sem.c 中 ， 我 们 把 它 贸 给 读者 自己 阅读 。 


6.8.3 FER semctl( ) 一 一 信号 量 的 控制 与 管理 


与 msgctl( AT) FE. PRA sys_semetl() 的 代码 虽然 不 短 ， 逻 辑 却 很 简单 。 我 们 把 它 留 给 读者 了 。 
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